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لايسمح بإعادة إصدار هذا الكتاب» أو نقله في أي شكل أو وسيلة» 
سواء أكان إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين» أو أنظمة الاسترجاع» دون إذن خطي من المركز بذلك. 
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كلمة المركز 


يعمل المركز في جال البحث العلمي ونشر الكتب مستهدفاً التركيز على المجالات 
tou‏ زالع يحاجة فا ا عليهاء S‏ الدع Add sei‏ 
الباحثين والجهات الأكاديمية إلى أهمية استثغارها بمختلف وجوه الاستشار» وذلك مثل 
مجال (التخطيط اللغوي) و (العربية في العالم) و(الأدلة والمعلومات) و (تعليم العربية 
لأبناتها أو لغير الناطقين Ce‏ إلى غير ذلك من المجالات» وإن من أهم مجالات البحث 
المستقبلية في اللغة العربية مجال (العربية والحوسبة » والذكاء الاصطناعي) حيث إن 
حياة اللغات ومستقبلها مرهونة بمدى تجاويها مع التطورات التقنية والعالم الافتراضي» 
وكثافة المحتوى الالكتروني المكتوب» وهو ما يشكل تحديا حقيقيا أمام اللغات غير 
المنتجة للمعرفة أو للتقنية. 

وقد عمل المركز على تسليط الضوء على هذا المجال التخصصى؛ مستعينا بالكفاءات 
القادرة من المهتمين بالتخصص البيني (بين اللغة a‏ جهودهم» وهادفاً 
إلى نشرهاء وتعميم مبادئهاء راغباً أن يكون هذا المسار العلمي مقررا في الجامعات في 
كلية العربية والحاسوب» ومجالا بحثيا يقصده الباحثون الأكديميون» والجهات البحثية 


م 
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وقد أصدر المركز سابقا ستة عشر كتاباً ختصا في (حوسبة العربية) وفي الإفادة من 
«المدونات اللغوية) في الأبحاث العربية» ويحتفل بإصدار سبعة كتب جديدة مختصة في 
(حوسبة العربية والذكاء الاصطناعي) » ويقدمها للقارئ العربي» وللجهات الأكاديمية؛ 
للإفادة منها في مناهج التعليم والبناء عليه» وهذه الكتب السبعة هي: (العربيّة والذّكاء 
الاصطناعي» تطبيقات الذكاء الاصطناعي في خدمة اللغة العربية» خوارزميات الذكاء 
الاصطناعي في تحليل النص العربي» مقدمة في حوسبة اللغة العربية» الموارد اللغوية 
اا ا الآلية للنصوص العربية» تطبيقات أساسية في المعالجة الآلية للغة 
ا 

ويشكر المركز السادة مؤلفي الكتب» ومحرريهاء لما تفضلوا به من عمل علمي 
رصين» وأدعو الباحثين والمؤلفين إلى التواصل مع المركز لاستكمال المسيرة» وتفتيق 
فضاءات المعرفة. 


وفق الله الجهود وسدد الرؤى. 


الأمين العام 
أ. د. محمود إسماعيل صالح 
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قف الات اطي اة ف cot‏ في المُعاة الآليّة Eas‏ من مُستوياتٍ 
ar oro gll EE‏ 
طْمُوح الباحثينَ في ميادين حوسّبة اللغة يسع مع الطّفرات المائلة Ludi‏ يشهدُها عا 
الذّكاء الاصطناعيّ. وم تَعْد s‏ الاسة ستشرافية للمستقبل قاصرةً على تمكين الآلة 
من فهم المجموعات المحدودة من $a pnl‏ بل تجاورّت ذلك إلى رغبة Ex‏ في 
تمكين الآلة من bil‏ مع مجموعاتٍ كبيرةٍ Ced‏ من النصُوص AEI‏ في الأخائر 
اللخ وششروعات البانات. 

Ge اي تنل حظًا وافرًا من عناية‎ e t العربيةٌ إحدى اللُغات‎ a i, 
وتقنياتها؛ سواءٌ في صورتها المنطوقة أم المكتوبة؛ وسواءٌ على مُستوى‎ EU في حَوسَبة‎ 
ÁL التطور الملموس في‎ Quo eer على مُستوى‎ el حارفها ومبانیهاء‎ 
نعتقة |9 التشتقبل القريت قل يشهد إجابة عن بعفن‎ Ulp العريية‎ zu EN 
iss بشأن قواعد العرييّة وماهيّتها وقوانين‎ iy ls Jiz التساؤلات الى لا‎ 
والدلالية‎ as وأنماطها‎ 
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PEL 


AAE US]‏ اليو هذا الكتابَ PE DYLLI‏ العريية) الذي يعد الكدات 
Sea ÉÉN‏ سلسلة دراسات esM,‏ في حَوسبة الغ العربية. 55 158 هاذة هذا 
NETS,‏ وف ا كا EIN‏ ق مُعالجحتها N‏ ونسعى من خلال ذلك إلى 
تقديم تصورٍ حول واقع مُعالجة GAl ua‏ من نا حية» وتوجيه القارئ الكريم إلى 
أبرز التحدِّيات في ذلك الميدان من ناحية ثانية» والدّفع ;$7 3 طموحة للمأمول بشأن 
I o laa‏ من 6 AM‏ 


ورغبةٌ في تحقيق أهدافنا المنشودة» فقد قسّمنا الكتابٌ إلى أربعة فُصُولِء على النّحو 


"T 


الفصل الأوّل: m‏ المعلومات؛ يُعنى بمفهوم استرجاع المعلومات» 
وآليّات العثور o grade‏ في جموعة كبيرةٍ من الوثائق» لا سيا GIU JI‏ 
Tal‏ ويعرض xe‏ بين go‏ البحث «Find dels Search‏ 
od,‏ ال s Lalo ss aaae ets‏ اداي رة 
الفصل الثاني: الترجة HOMI‏ ويعرض مقدّمة $m‏ حول iz UI‏ الآليّة 
وأهمّ المُصطلحات المُستَخدّمة في ذلك الميدان؛ ويعرض كذلك لتقنيات 
Re I‏ لآل وار جهات ete‏ لتطويرهاء والأدوات والموارد الأساسة 
فيها. AAE s‏ الفصل مجموعةً من الأفكار البحثيّة المُوجّهة لبناء موارد I‏ مة 
الآليّة. 

الفصل الثّالث: التشكيل NI‏ يُعنى هذا الفصلٌ É‏ تشكيل النصوص 
العربية؛ ويُقدّمُ تعريقًا بعلامات الصّبط العربيّة» كا (Xd‏ صياغة رياضيّة 
ade us‏ إشكالات الكل وع الفصل CAU‏ 54 الأبالبب 
المُستخدّمة في تطوير XE‏ تشكيل النصوص العربيّة» والموارد اللّازمة 
لذلك؛ ويعرض أخيرًا لبعض الأفكار البحثية التي ALÈ‏ استثارها في إعداد 
أطروحاتٍ علمية مُستقبليّة. 


اك 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o ©2131‏ ^ 


° الفصل الرّابع: eiil‏ في النشوص؛ ويشتملٌ على ثلاثة مباحث؛ حيث aAa‏ 
في الملبحث الأوّل لأساليب تجميع النصّوص وتصنيفهاء والتطبيقات العمليّة 
للجميع والتُصنيف في العرييّة؛ ويُعنى البح Gil‏ بتلخيص التُصُوص 
وأنواعه وأساليبه ونماذج أنظميه. JEJE sli UT‏ فيعرض لتطبيق استنباط 
اتماهات الرّأي العا الذي خد أحد eoa cota 5 d‏ الصرض: 
"T‏ ليع الأخيُ لأساليب cua‏ عن الآراء وطرائق ذلك في 
Fa si Do JU a al‏ رؤية SaL oer A‏ 
والتّحدّيات التي تُواجِهُ التّقيب عن الآراء. 
وبع lt DESG‏ على الطّريق إلى حوسبة uo eal‏ العربيّة وتيسير معا ها 
GT‏ ونحنٌ Ais‏ أن تلي هذه الخُطوةً t ad‏ أخرى Zst‏ عُمقًا وإدراكًا لبنية النصُوص 
cis ad‏ سعيًا إلى مُعالحة إشكالات هذه cua pl‏ وابتكار C JL‏ جديدة وناجعة 
لتحسين نتائج PE‏ جاتها. 

JC‏ الله تعالى أن يتقبّل هذا H So adl‏ والأجر الجزيل» وأن dn‏ من 
العلم الذي ينفمٌ أصحايّه بعد مماتهم. l‏ 

ربّنا عليكٌ توكّلنا وإليكٌ Ud‏ وإليكٌ المصير. 


TEE 


5 iut 
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الفصل الأول 
استرجاع المعلومات 


د. وَلِيد تحدى د. أسامة إمام 


دغركات بحت الشيكة العتكبويية. 

5- خر كات البحث المكتبية. 

-V‏ حر كات ببحث الشبكات الاجتاعية. 

۸- البحث الدلالي. 

4- أفكار تصلح للأطروحات العلميّة (الماجستير والدكتوراه). 
-٠١‏ من المواقع الإلكترونيّة التَعلِيميّة والإرشاديّة. 


-1١6ه-‎ 
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Y‏ — مقدمة 


-١١‏ تعريف استرجاع المعلومات 

3 استر pe‏ المعلو مات Gb (Retrieval Information)‏ إيجاد حتوى غاليًا ما 
يكون وثائق من وسط مجموعة كبيرة من الوثائق ذات الطبيعة الغير منظمة» بحيث 
تقوم هذه الوثائق المسترجعة بسدٌ الاحتياجات المعلوماتية للمستخدم. وبعبارةٍ أخرى. 
استرجاع المعلومات هو فن البحث عن المعلومات ذات الصلة بالموضوع الذي يبحث 
عنه المستخدم. وقد أصبحَ استرجاع المعلومات أحد أهم عناصر التطور QU gall‏ 
نتيجةٌ للزيادة المطردة في كمية المعلومات المتوافرة» والتي تتزايد باستمرار ما Je‏ 
cya dna qt Rh d la pli ed du lll‏ هد ie gio ied Musa‏ 
معلوماتية قوية. 


(Find) والتَحَرّې‎ (Search) -الفرق بين خاصيتى البحث‎ ١ 
وذلك‎ (search) المعلومات الذي يعتمد على البحث‎ perd يناك فرق كتين ون‎ 7 
التي تتواجد في معظم برامج وتطبيقات‎ (find) Ty تخاصية‎ de Aem الذي‎ 
الحاسوبء والتي تساعد المستخدم على تحديد كلمة في النص أو الصفحة التي يقرأها.‎ 
فعند البحث عن كلمة ما في إحدى الوثائق أو في مجموعة من الوثائق عن طريق التحرّي‎ 
فإن مُعالِيجَ الحاسوب يقوم بمطابقة كل كلمة في النص بطريقة متسلسلة ويتم تحديد‎ 
مكان أو أماكن التطابق للمستخدم. هذه الطريقة في البحث يعيبها البطء في مُعالحة‎ 
عملية البحث» حيث يتم البحث بمطابقة كلمة كلمة في النص لكلمة البحث مما يجعل‎ 
البحث في كمية كبيرة من النصوص والمستندات غير عملي لطول الوقت المطلوب‎ 

بقة كل الكلمات. ومع هذا تظل خاصية «التَحَرّي» من أهم الخصائص لمعظم 
تطبيقات الحاسوب لأنها تساعد المستخدم في تحديد بعض الكلمات في النص المقروء 
بطريقة سهلة وسريعة بالنسبة للنصوص الصغيرة نسبيًا. 

وفيا ale‏ باسترجاع المعلومات عن طريق البحثء فإن الموضوع يعتمد على طرق 
وعناصر مختلفة من أجل تحديد الوثائق المراد البحث عنها بطريقة أكثر عملية وبدقة 
وإمكانيات أعلى في علمية التطابق والبحث كما سيتضح فيا يلي. 


-/ااط- 
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Y, Y‏ - نظم استرجاع المعلومات (محركات البحث) 

(S‏ ذكرنا OB GT‏ استرجاع المعلومات عملية متكاملة وأكثر تعقيدا من مجرد 
استخدام التطابق المتسلسل لكلمة البحث مع النصوص كا هو الحال في خاصية 
«التحرّي». هناك نظم كاملة لاسترجاع المعلومات تكون مسئولة بشكل أساسي عن 
استرجاع كل ما كان ذا صلة با يبحث عنه المستخدم بطريقة دقيقة وسريعة. الاسم 
الشائع لنظم استرجاع المعلومات هو «محركات البحث». ويتكوّن محرك البحث من 
مجموعة عناصر أساسية تقوم على معالجة الوثائق وموضوعات البحث بطرق uba‏ 
من أجل الحصول على نتائج بحث مرضية للمستخدم. وتختلف كيفية معالجة البيانات 
والوثائق من تطبيق إلى آخر ومن لغة إلى أخرى؛ فمحركات بحث المكتبات تختلف من 
حيث معالحة المعلومات وطريقة البحث عن محركات بحث الإنترنت أو الويب؛ كما أن 
محرك بحث التطبيق الواحد يختلف من حيث طريقة المعالجة على حسب اللغة أو نوع 
البيانات التي يتم البحث بها. كمثال هذا: مطابقة كلمة «احمد» و«أحمد» تحتاج إلى طريقة 
معالجة خاصة باللغة العربية» C‏ أن معالجات مختلفة تكون مطلوبة للغات اللأخرى 
ذات الخصائص المختلفة. طرق المعالجة وطريقة البحث وأسلوب عرض النتائج أهم 
وظائف محركات البحث» وهى التى تجعلها مختلفة تماما عن خاصية «التحرّي» البسيطة 
الى تخد Judd‏ بحضى الكليات del let‏ 


٤ \‏ - مجموعات المستندات والوثائق (ما يتم البحث بداخله) 

المهمة الأساسية لمحرك البحث هي استرجاع الوثائق والمستندات ذات الصلة با 
يبحث عنه المستخدم من أجل إشباع حاجته المعلوماتية. قد يتصَوّر من الوهلة الأولى أن 
هذه الوثائق 5 ن وثائق نصية فقط» ولكن - في الحقيقة - استرجاع المعلومات يشمل 
آي نوع من المعلومات بحيث تأخذ الوثائق صورًا مختلفة» فيمكن أن تكون ملفات نصية 
بسيطة» أو ملفات نصيّة متقدمة كصفحات الويب» أو ملفات نصية منظمة كالملفات 
Words 4‏ وملفات XML‏ وأيضًا يمكن أن تكون الوثائق غير نصية بالأساس؛ 
كالصور coU y‏ الصوتية والمرئيّات. يمكن أن تكون مجموعة الملفات التي يتم البحث 
فيها كلها من نفس النوع أو من أنواع مختلفة (dea‏ يحدث في محركات بحث الويب» حيث 
تشتمل النتائج على صفحات ويب بالإضافة إلى صور ومرئيات. 


—YA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o mE‏ ^ 


تحتوي مجموعة الوثائق - أيّا كان Ue p‏ - في الغالب على أعداد كبيرة وهائلة من 
الوثائق حيث تصل إلى آلاف وملايين» بل ومليارات الوثائق كما هو JH‏ في الشّبكة 
العنكبوتيّة. وهذاء فمن الضروري عند تطوير محركات البحث أن تكون قادرة على 
معالجة هذه الأعداد المائلة بدقة وفي وقت سريع جدًا. وكمثال على هذاء عند استخدام 
أحد حر كات بحث الويب (مثل: «(Google‏ فإن عملية البحث تتم في بضعة أجزاء من 
الثانية وبدقة عالية. 

في بعض الأحيان يتوجب على محرك البحث أن يحدد تعريف الوثيقة التي يجب 
استرجاعها. فالوثيقة أحيانا لا تكون واضحة التعريف ومن هنا يكون تحديد عنصر 
الوثيقة (وحدة البحث) من واجبات محرك البحث. 

أحد الأمثلة على هذا «محركات بحث المكتبة)؛ فأحد الخيارات أن تكون وحدة 
البحث هي الكتاب حيث تكون الوثائق المسترجعة في نتائج البحث هي قائمة بأسماء 
الكتب ذات الصلة. 

كما يمكن أن تعرف الوثائق بأنها الفصول في الكتب أو الصفحات أو حتى الفقرات 
داخل الصفحة» بحيث تكون نتائج البحث عبارة عن قائمة بعناوين الفصول داخل 
بعض الكتب أو أرقام الصفحات أو الفقرات التي تحتوي على المعلومة المطلوبة. 

في كل هذه الحالات يوجد نفس المستندات والمحتوى» ولكن تختلف طريقة تعريف 
عنصر الوثيقة وكيفية البحث وعرض النتائج. 

١‏ ,- احتياجات المستخدم (المطلوب البحث عنه) 

تختلفٌ احتياجات المستخدم في عملية البحث من تطبيق بحث لآخر ومن شخصية 
لآخرى. فالسيناريو المعهود في عمليات استرجاع المعلومات والبحث أن يفكر 
المستخدم في موضوع ما ويحتاج إلى بعض المعلومات عنه» فيقوم بالتعبير عن هذا 
الموضوع ببضع كلمات ثم يقوم بالبحث عدا يريد. أحيانا تكون نتائج البحث غير مرضية 
بالنسبة للمستخدم فيقوم بتغيير بعض كلمات البحث أو حتى إعادة صياغة الموضوع 
المراد البحث عنه بكلمات مختلفة كلية. هذا يوضح الفارق الأساسي بين شيئين في عملية 
استرجاع المعلومات» آلا وهما: موضوع البحث وكلات البحث. يمكن تعريف موضوع 


-1١4- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


البحث بأنه ما يدور في خلد المستخدم Ce‏ يريد أن يجده؛ UT‏ كلمات البحث فهي الكلمات 
المستخدمة للتعبير عن هذا الموضوع» وهي ليست بالضرورة أحسن ما يعبر عن هذا 
الموضوع. KS‏ المثال الموضح أسفله بعض الصياغات المختلفة لنفس موضوع البحث» 
إذ لا توجد بينها كلمة مشتركة واحدة. وإن طلبنا من أشخاص مختلفين صياغة كلمات 
بحث لنفس الموضوع» فمن الصعب أن نجد اثنين يصيغان نفس كلمة البحث. هذا 
يوضح إحدى الخصائص المهمة الواجب توافرها في أي محرك بحث فعال» حيث يفضل 
أن يتم البحث على مطابقة الموضوع» لا على المطابقة الحرفية للكلمات. 

موضوع البحث: يريد المستخدم أن يعرف بعض المعلومات عن ال حجمات على برجي 
التجارة العالميين في الولايات المتحدة الأمريكية عام Yet V‏ 

بعض الصياغات الممكنة لموضوع البحث يمكن أن تكون كالآتي: 

.4/١١ثادحأ‎ * 

* الهجات على بُرجى التجارة العالميين. 

.٠٠٠٠ الحوادث الإرهابية على الولايات المتحدة الأمريكية عام‎ e 

* تفجيرات ١١‏ سبتمبر - أمريكا. 

وعلى النقيض لا تم توضيحه في المثال السابق» OB‏ موضوعات مختلفة يمكن أن 
تصاغ بنفس الكلمات Ut‏ يصنع بعض التخبط لمحرك البحث حيث لا يكون المقصود 
وراء كلمات البحث واضحًا تماما. ومثال هذا: قيام المستخدم بالبحث عن عمد عبده). 
هنا موضوع البحث يحتمل co Nel‏ عدة للمقصود وراء كلمتي البحث كالآتي : 

* محمد عبده: dle‏ دين مصريء عاش في أوائل القرن العشرين. 

° محمد عبده: المطرب السعودي . 

aé : ه‎ Ao) محمد عبدهياني: وزير الثقافة السعودي في الفترة‎ ٠ 

t‏ محمد عبده صالح الوحش: اللاعب السَّابق في المتتخب المصري لكرة القدم. 

وأمثلة أخرى كثيرة هذاء مثل: 


حاو = 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


«الرئيس الأمريكي جورج بوش»: (الأب el‏ الابن). 
«النادي الأهلي»: (المصريء السعوديء الليبي» القطري» الأردني» الإماراتي» أم 
«الملك عبدالله»: (ملك السعودية» مؤسس الأردنء أم ملك الأردن الثاني). 


كل هذه الأمثلة توضح أنه ليس بالضرورة أن تكون كلمات البحث معبرة بوضوح 
عن موضوع البحث» كا لا يلزم أن تكون لمستخدم محرّكات البحث نتائج معينة متوقعة 
أو مُرضية لكل الأشخاص. 

Ut‏ سبق يمكن استنتاج أن تعريف الاحتياجات المعلوماتية للمستخدم يختلف من 
شخص oz‏ وإن تشابه موضوع البحث أو حتى تشابہت كلمات البحث. وبالتالي فإن 
تعريف الوثائق G‏ المسترجعة التي تكون «ذات صلة» بموضوع البحث هو شيء نسبي غير 
محدد بالضرورة dx.‏ هذا من أكبر التحديات التي تواجه أي حرك بحث من أهدافه أن 
يرضي المستخدمين عامة بتنوع توجهاتهم وأهدافهم. 


d ١‏ ايت 


eo re HM 
المراد البحث فيها بالشكل المناسب وبناء الفهرس الرقمي للكلمات‎ 
والمصطلحات من أجل تسهيل عملية البحث. هذه المرحلة من استرجاع‎ 
المعلومات في بعض الأحيان تتم مرة واحدة فقط وبعدها تكون مجموعة الوثائق‎ 
جاهزة للبحث» ولكن غالبا ما يضطر إلى تكرار عملية الفهرسة كل فترة من‎ 

الزمن» وهذا عند إضافة وثائق جديدة للمجموعة. 
المرحلة الأخرى: مرحلة البحث نفسها؛ وهي التي تتم بشكل متكرر كلما أراد 
أحد المستخدمين العثور على معلومات معينة. وتشمل هذه المرحلة أحيانا تجهيز 
كلمات البحث بشكل ما ليناسب البحث في الفهرس» ثم يتم البحث في الفهرس 
واسترجاع نتائج متماشية مع كلمات البحث ثم عرضها على المستخدم على شكل 

قائمة مرتبة حسب علاقة الوثيقة بموضوع البحث. 


#١‏ ب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o — 1‏ ييا 


(S‏ هو مبين» هناك عمليات عدة لإتمام عملية استرجاع المعلومات» ولكن المستخدم 
للايرى ما oae‏ في الخلفية من هذه العملية إلا ما يكتبه من كلمة بحث ويعود من نتائج 
في النهاية. 

وبعبارة أخرىء لايتعرّف المستخدم على نوع المعا لجات أو كيفيّة تجهيز الوثائق والكلمة 
في حرك البحث. الجزء القادم يشرح عملية الفهرسة وعملية البحث بشكل تفصيلي. 


الشّكل ١-١‏ : عملية استرجاع المعلومات. 


YY 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


Y‏ — عملية الفهرسة 
من أجل eU]‏ عملية البحث بشكل سريع ودقيق» يتم بناء فهرس لمجموعة الوثائق 
حتى تسهل معرفة الوثائق التي تحتوي على مصطلحات معينة بشكل سريع. 


Y‏ - تحديد عنصر المصطلح 

قبل عملية الفهرسة, يتم ned‏ المستندات والكلمات ووضعها في شكل مناسب 
من أجل إنشاء فهرس فعال في عملية البحث. من أهم العمليات عند تجهيز البيانات 
للفهرسة «تحديد عنصر المصطلح». 

. التعريف البديبي للمصطلح هو الكلمة. ولكن في الحقيقة - وني معظم اللغات - 
فإن تحديد عنصر المصطلح على أنه الكلمة لا يعد أحسن الخيارات لعملية البحث. وهذا 
لآنه في الغالب يمكن لكلمات عدة أن تكون أشكالا سطحية مختلفة لنفس المصطلح. 
وهذا يشمل إضافة بعض الحروف لساق المصطلحات للحصول على كلمة مختلفة مثل 
إضافة اللواحق في اللغة الإنجليزية وإضافة السوابق واللواحق في اللغة العربية؛ انظر 
الجدول .)١-١(‏ وبالإضافة إلى الطرق المختلفة لكتابة نفس المصطلح كال همزات في 
العربية (احمد/ أحمد) والحروف الكبيرة (capital)‏ في اللغات اللاتينية ahmed)‏ 
(AHMED‏ سيكون من المتوقع أن يجد المستخدم وثائق مسترجعة من عملية البحث 
تحتوي على المصطلح الأساسي ني كلمات البحث بصرف النظر عن الشكل السطحي 
للكلمة. وهذا فإنه من الضروري جدًا لأي محرك بحث فعال أن تتم معالجة الكلمات 
المستخدمة في نصوص الوثائق وأيضا في كلمات البحث ليحدث تطابق للأشكال 
السطحية المختلفة من الكلمات التي ترجع لنفس المصطلح. 

من أهم عمليات المعالجة الأساسية في معظم اللغات عملية التجريد (التجذيع) 
(stemming)‏ وهى عملية تجريد الكلمات من أي سوابق أو لواحق للحصول على 
ET E‏ 

ee is‏ الجدول C 7 Y)‏ بعض الأمثلة لأشكال سطحية مختلفة لبعض الكلمات 
العربية والإنجليزية» والتي تقوم عملية التجريد بتوحيد هذه الأشكال المختلفة إلى 
شكل موحد» هو ساق الكلمة» ما يؤدي إلى تطابق أحسن عند البحث. 


E ic 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
à D.‏ 8 ييا 


أمثلة أشكال سطحية ختلفة لنفس ساق الكلمة الساق 
الكتب» des pa "a e‏ كتبهم» كتبهن» كتب 
يلعب» تلعب» يلعبون» لعب» لعبت» وسيلعب لعب 
Play play, played, playing, plays »‏ 
الإنجليزية . 
calculate | Calculate, calculating, calculated, calculation, calculates‏ 


الجدول Y — Y‏ : أمثلة لبعض الأشكال السطحية لنفس المصطلحات في اللغة العربية والإنجليزية. 


EAS‏ الأمثلة الموضحة في الجدول )١-١(‏ أهمية تجريد الكلمات من السوابق واللواحق 
للحصول على الساق ليمثل المصطلح الذي سيدخل عملية الفهرسة. تتم هذه العملية 
أيضًا لكلمات البحث لتتم عملية التطابق على مستوى الساق للكلمات مما يؤدي إلى 
استرجاع أشكال مختلفة من نفس الكلمة» وبالتالي يؤدي إلى قدرة del‏ على استرجاع 
المعلومات. 

هناك طرق ختلفة لتطبيق عملية التجريد للكلمات من السوابق واللواحق. أسهل 
هذه الطرق هى التى تعتمد على حذف حروف معينة من أول أو آخر الكلمات» مثل 
جلف «Jo ETA‏ > «و» » «ف» » «وال» من أول الكلمات بالنسبة للغة العربية. 
ولكن المشكلة الكبيرة هذه الطريقة هي عدم القدرة على تمييز الخروف» Saal gel‏ في 
الكلمة أم هي مجرد سوابق. هذا يتضح في كلمات مثل «الله» و «وحيد» » لأن الناتج عن 
عملية التجريد هذه الطريقة سيكون (GJ‏ و «حيد» على الترتيب. هذا السبب» فإن هناك 
طرق أكثر تعقيدًا ودقة لحذف السوابق واللواحق دون حدوث أخطاء كهذه. أشهر هذه 
الطرق تعتمد على الأساليب الإحصائية والناذج اللغوية للحصول على تجريد دقيق 
للكليات. 

ومن عمليات المعالجة - التى غالبا ما تطبق في كثير من اللغات - توحيد طريقة AUS‏ 
بعض الكلمات كما ذكرنا سالفا. ويكون الموضوع بسيطًا في بعض اللغات كالإنجليزية, 
حيث يتم توحيد الحروف الكبيرة لتصير كلها صَغيرة (case lower)‏ من أجل تسهيل 
عملية التطابق (مثل: (ahmed /AHMED‏ في لغة أخرى تكون عملية توحيد أسلوب 


و 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
OOO‏ 


الكتابة للكلمات أكثر تفصيلا كاللغة العربية كا هو موضح في الجدول التالي: 


| عملية المعالحة 
حذف التشكيل من 
الكلات إن وجد 
حذف علامة توسعة 
الكلات إن cd‏ 
توحيد ال همزات 


(s ئۇ«‎ ce) 


الألف والهمزة 


توحيد رسم 
Te‏ !<( 


توحيد الياء (ي» ی ي) 


توحيد التاء المربوطة £u s‏ 


(o «— o «8) 


مثال 


+ $ o 
مُؤمئنون > المؤمنون‎ 
Dupuis 


مؤمنون -> مءمتون 


ابناءه» cbl‏ ابنائه —- أبناءه 


Ael > ael 
إسلام > اسلام‎ 
اخر‎ >] 
أخري‎ c pl 
كلمة سه كلمه‎ 


السبب 


ليست مستخدمة في أكثر 

النصوص العربية» ونادرا 

ما يستخدمها المستخدم à‏ 
الببحث 


لاختلاف كتابة الهمزات 


هذه المعالجة لن يضر الكلمات 
الأخرى 
لعدم الالتزام بطريقة ثابتة 
لكتابة هذه الحروف في 
النصوص العربية» ولا حتى 
في كلمات البحث 


الجدول :1-١‏ عملية توحيد طريقة كتابة الكلمات في اللغة العربية [للبحث أو الفهرسة]. 


من الممكن أن تكون هناك طرق معالجة أخرى للكلمات للحصول على عنصر المصطلح 
قبل عملية الفهرسة» وهذا يختلف من لغة إلى أخرى وفقا الخصائص اللغة وطبيعتها. 


(words stop) حذف الكلمات المستَبِعَدَة‎ - Y , Y 


بالإضافة إلى تحديد عنصر المصطلح قبل عملية الفهرسة؛ والّذي يكون في ساق 
الكليات - «Ue‏ فإن عملية حذف الكلمات المستبعَدّة من النصوص تعد من أكثر 
الأساليب انتشارًا كإحدى عمليات المعالجة قبل الفهرسة. الكلمات المستَبعَدَة هى 
الكلمات ذات الأهمية الضعيفة في عملية البحث» والتي ليست هما قيمة قوية في تحديد إن 
كانت الوثيقة ذات صلة بموضوع البحث آم Y‏ 


—-Yo- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)6ا بآ ييا 


الكلمات المستبعَدَة هي الكلمات التي تكون متواجدة في معظم الوثائق في مجموعة 
y t‏ ف لأ قير راه عن Lez, s el‏ هذه اللات فق culi‏ خورف 
الجر (M «de (^ cå)‏ والضائر caa)‏ هي» q^‏ أنت» أنتم). 

هذه الكلمات لا تضيف معنى قويًا إلى موضوع البحث y‏ 453 0 متواجدة في معظم 
الوثائق» وبالتالى فإن حذفها يعد من العمليات التى تساعد على تحسين أداء حرك 
البحثء ك| أن حذفها يساعد على تصغير حجم الفهرس وبالتالي تسريع عملية البحث. 
| اللغة ENE‏ | 
«i «de e^ «à 5 |‏ عن» هو هي٠ cU Ju dus‏ هذاء coda‏ هؤلاء» كنت» کان» cal‏ 
ad‏ هاء التى» الذي» قل و» أو «sl‏ إن» إنه» del‏ ذلك تلك .. 


it, he, she, I, you, they, the, them, their, his, her, this, these, 
those, is, are, am, was, were, has, had, have, on, in, from, | الإنجليزية‎ 
to, for, or, and, our, your ... 


الجدول :"-١‏ بعض أمثلة الكلمات المستَبعَدَّة في العربية والإنجليزية 


-Y ۲‏ الفهرس 
بعد عمليات المعالجة للنصوص في الوثائق والحصول على المصطلحات التي ستتم 
الفهرسة cU‏ يقوم نظام استرجاع المعلومات ببناء الفهرس oid‏ المصطلحات. الفهرس 
هو جدول يحتوي على المصطلحات وقائمة الوثائق التي ظهر فيها كل مصطلح بالإضافة 
إلى إمكانية وجود معلومات أخرى عن المصطلح في حالة نظم استرجاع المعلومات 

المتقدمة. 


بافتراض وجود مجموعة من الوثائق بحيث ترقم الوثائق ۱» OB ... Y CY‏ أبسط 
أشكال الفهرس يكون IS‏ هو موضح في الجدول :)5-١(‏ 


| المصطلح أرقام الوثائق التي ظهر فيها | 
أحمد NYANE ATN‏ 

مؤمن 1 01< ال 00 

.. 5565ل‎ QA اكت‎ EY A أبناء‎ 


الجدول :5-١‏ مثال لفهرس بسيط يستخدم في عملية استرجاع المعلومات. 


cA 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


كل coldlaaa fo ut (E71) dud d aet‏ بعل lae‏ كريد aedi‏ 
واللواحق» وبعد عملية توحيد الحروف. الأرقام المقابلة لكل مصطلح هي أرقام 
الوثائق التي ظهر بها هذا المصطلح. 

في أكثر الفهارس الحالية في نظم استرجاع المعلومات» يتم حفظ معلومات إضافية 
عن المصطلح في كل وثيقة. المعلومة الشائع حفظها هي عدد المرات التي ظهر فيها 
المصطلح داخل الوثيقة. كمثال لهذاء بإضافة المعلومة الجديدة يمكن أن تكون المعلومات 
المحفوظة للمصطلح (uel‏ داخل الفهرس کالآتي: QUY (OD LEN‏ 
(N 0T)‏ بمعني أن المصطلح «أحمد» ظهر داخل وثيقة ١‏ أربع مرات» ووثيقة ١‏ مرة 
واحدة» ووثيقة VÉ‏ مرتين» ووثيقة ٠١‏ عشر مرات. هذه المعلومة تساعد على ترتيب 
الوثائق المسترجعة ك| سيتم توضيحه في الحزئية القادمة. 

أمثلة أخرى لبعض المعلومات التي يمكن حفظها عن المصطلحات والوثائق داخل 
الفهرسء يمكن أن تكون كالآتي: 

* عددالوثائق التي يظهر فيها المصطلح؛ وهي معلومة مهمة جدا تُظهر أهمية المصطلح. 
يتم شرح أهمية هذه المعلومة لترتيب الوثائق المسترجعة في الجزئية القادمة. 

* طول كل وثيقة. حيث هناك طرق للبحث تقوم بمعاملة كل وثيقة حسب A gb‏ 
هذه المعلومة مهمة في الحالات التي يكون فيها طول الوثائق في المجموعة مختلفا 
بشكل كبير. 

* أماكن ظهور الكلمة في النص» حيث يحفظ مع كل مصطلح ترتيب ظهوره من 
بداية الوثيقة» وهذا يساعد عند الاستعلام عن أكثر من كلمة في كلمات البحث 
على معرفة قرب هذه الكلمات من بعضهاء بحيث تساعد أيضًا على ترتيب 
الوثائق المسترجعة بجعل تلك التي فيها كل كلمات البحث أقرب من بعضها 
تأخذ ترتيبا أعلى في قائمة النتائج. ‏ 

* حجم الخط الذي يكتب به المصطلح» وهذا يكون في النصوص المتقدمة 
والمنظمة كصفحات الويب. فمن المنطقى إعطاء أهمية أكبر للمصطلحات التى 
تكتب بخط أكبر كالعناوين l (oaa‏ 


—-YN-— 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


وبعد بناء الفهرس» تكون مجموعة الوثائق جاهزة لعملية البحث من E‏ 
المستخدمين. 


۳- آليّة البحث 


Y‏ - تجهيز كلمات البحث 

عندما يقوم المستخدم بإدخال cos‏ البحث على محرك البحث» تكون أولى الخطوات 
هي تجهيز هذه الكلمة بالصورة المناسبة من أجل بحث الفهرس. 

غالبا ما تكون العمليات المعالجية في عملية التجهيز هى نفسها التى تحدث قبل 
عملية الفهرسة. فبفرض أن عمليات التجهيز هي التي تم ذكرها سابقا في عملية 
الفهرسة من تجريد الكلمات وحذف الكلمات المستبعَدة؛ فإذا كانت كلات البحث هى 
doe balla cae a ol‏ انه REN‏ 
أبناء» لتكون جاهزة للبحث في الفهرس عن الوثائق التي تحتوي على هذه المصطلحات. 

(Binary Search) بحث منطقي‎ -Y ,Y 

S‏ البحث المنطقي أبسط أنواع طرق استرجاع المعلومات» حيث يعتمد فقط على 
تواجد كلمات البحث داخل الوثيقة ليقوم باسترجاعها دون محاولة ترتيب النتائج. ففي 
المثال السابق» تكون الوثائق المسترجعة هى التى تحتوي على المصطلحات الثلاثة «أحمد 
مومع eel‏ كلها e‏ لظي لدو Gil glad gl el CE‏ 
المسترجعة تظهر في قائمة غير مرتبة على أساس صلة الوثيقة بموضوع البحث. ولكن 
فقط تكون كل الوثائق المسترجعة هي التي تحتوي على الثلاثة مصطلحات مجتمعة. 

هذا الأسلوب في البحث غير واسع الانتشار إلا في بعض تطبيقات البحث 
القانونية كالبحث عن براءات الاختراع أو البحث في الوثائق القانونية» حيث يكون 
المستخدمون للبحث هنا أفرادًا متخصصين يقومون ببناء كلمة البحث بشكل حرفي 
يعتمد على وجود المترادفات في كلمات البحث. فيمكن أن تكون كلمات البحث في 
المثال السابق بالشكل الآتي: «أحمد + (مؤمن |تقي |ملتزم) + (أبناء |أولاد)». فعلامة «+) 
تدل على ضرورة وجود المصطلحات مجتمعة» وعلامة «|» تدل على إمكانية وجود أي 


cA 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


من الكلمات التي بين الأقواس. فيصبح معني JUL‏ السابق: SË‏ عن كل الوثائق التي 
تحتوي على المصطلح «أحمد» بالإضافة إلى (sl‏ من المصطلحات «مؤمن»» «تقي»» أو 
«ملتزم»» بالإضافة إلى GÍ‏ من المصطلحين «أبناء» أو «أولاد). 


CY, Y‏ بحث إحصائي 

البحث الإحضاقي هو الأكثر 5 uU e‏ 
الحالي. هذه الطريقة من البحث تعتمد على النهاذج الإحصائية لاسترجاع GU ll‏ 
تانج | Ai dla‏ ترجا امغلومات cc m‏ 
الوثائق التي تحتوي على معلومات تؤهلها لتكون ذات صلة بكلات البحث وتعمل 
على ترتيبها ليكون الأكثر صلة على قمة قائمة النتائج . على عكس البحث المنطقي الذي 
تكون فيه النتائج هي التي تحتوي فقط على مصطلحات البحث. فإن البحث الإحصائي 
dada‏ عل إعطاء كل و رن شل ى odas‏ الست فة مد داد 
هذه القيمة US‏ ازدادت دلالات صلة الوثيقة بمصطلحات البحث. 


يمكن توضيح بعض الأفكار الأساسية لعمل هذه النماذج الإحصائية كالآتي: 

e‏ إعطاء وزن ضعيف للمصطلحات التي تظهر في ode‏ أكبر من الوثائق» حيث 
إنها دلالة على أن هذه المصطلحات غير قادرة على التمييز بين الوثائق المختلفة 
وهذا هو السبب الأساسي لحذف الكلمات SIR‏ التي تظهر في معظم الوثائق 
وتكون تقريبًا عديمة القيمة بالنسبة للبحث. 

* إعطاء قيمة أكبر للوثائق التي تظهر فيها مصطلحات البحث بعدد أكبر. فكلا 
كانت مصطلحات البحث متكررة بشكل أكبر داخل الوثيقة LIS‏ كان هذا دليلاً 
على أن الوثيقة تتحدّث عن هذه المصطلحات. 


* الاعتاد على نسبة ظهور المصطلحات داخل الوثيقة بدلا من عدد مرات 
الظهورء كنوع من إعطاء فرص متكافئة للوثائق القصيرة أمام تلك الطويلة. 
فظهور مصطلح معين عشر مرات في وثيقة Ugo‏ صفحة واحدة يمكن أن 
يكون أكثر صلة لهذا المصطلح من وثيقة أخرى ظهر فيها المصطلح عشرين مرة 
ولكن طوها عشر صفحات. 


A 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


* إعطاء قيمة أكبر للوثائق التي تظهر فيها مصطلحات البحث قريبة أكثر من 
بعضها. فهذا يعد دليلاً على دقة وقرب الموضوع في الوثيقة من موضوع البحث. 

هناك طرق إضافية لتحسين مستوى استرجاع المعلومات» ومعظمها يعتمد على 
إحصاء البيانات داخل مجموعة الوثائق» وفي بعض الأحيان تعتمد أيضًا على إحصاء 
البيانات من المصطلحات التي يستخدمها مُستخدمو محرك البحث. 

كمثال توضيحي للناذج الإحصائية في استرجاع المعلومات» يمكن النظر للمثال 
السابق «أحمد مؤمن أبناء»؛ حيث تكون كل الوثائق في الجدول CE- V)‏ قابلة للاسترجاع» 
لأن واحدة من هذه الكلمات على الأقل قد ظهرت بداخلها. ويتم ترتيب هذه الوثائق في 
النتائج على حسب نسبة ظهور كل مصطلح داخل أي من هذه الوثائق وأهميته. 

۳ - إثراء كلمات البحث 

أحد الأساليب المتبعة في بعض نظم استرجاع المعلومات هو إضافة بعض 
المصطلحات إلى المصطلحات الأصلية التي أدخلها المستخدم. المدف الأساسي من هذا 
الأسلوب هو زيادة احتمالية التطابق بين موضوع البحث والوثائق للحصول على نتائج 
أفضل. هناك طرق متعددة لكيفية إضافة المصطلحات. لعل أكثرها شيوعا: 

* الإثراء بذات الصلة (feedback relevance)‏ : في هذه الطريقة تُعرض نتائج 
البحث على المستخدم ثم يقوم المستخدم بتمبيز ما يراه ذا صلة U‏ يبحث عنه» 
وبعدها يعيد البحث بنفس كلات البحث. يقوم محرك البحث باستخراج 
بعض الكلمات من الوثائق التي ls za‏ المستخدم بأنها ذات صلة وإضافتها إلى 
كلمات البحث الأصلية ليتم استرجاع وثائق جديدة تحتوي على الكلمة المضافة 
بالإضافة إلى كلمات البحث الأصلية. كمثال واضح لهذاء إذا كانت كلمات 
البحث الأصلية هي «أحداث 24/١١‏ فمن المتوقع أن تكون معظم الوثائق 
ذات الصلة التي يحددها المستخدم تحتوي على الكلمات: «الولايات المتحدة 
الأمريكية» c‏ (المججات)» (sls ND c‏ » برجي التجارة». يقوم محرك البحث 
باستخراج هذه الكلمات بشكل آل وإضافتها إلى كلمات البحث الأصلية 
للحصول على نتائج بحث أفضل في المرة التالية. 


امات 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


* الإثراء المستّعار/ 15N‏ بذات الصلة le : (feedback relevance pseudo)‏ 
أن معظم المستخدمين لمحركات البحث Y‏ يفضلون إجراء عملية البحث على 
مرتين» أو على الأقل ينأون عن تحديد ما يرونه ذا صلة من أجل تنفيذ عملية 
الإثراء» فهذه الطريقة تعتمد على الإثراء الاصطناعي دون الاحتياج إلى تدخل 
المستخدم من الأساس؛ فهي تفترض أن الوثائق ق المسترجعة على قمة قائمة 
التتائج تكون ذات صلة. ولهذا فهي الطريقة الأكثر انتشارا لعملية إثراء كلمات 
الببحة» ال ذلقة اعبار أن اخم وثائق Ann RAM‏ هه ča iae‏ 
cds,‏ البحث الأصلية تكون ذات diio‏ ومن ثم تقوم باستخراج كلمات 
إضافية منها وإضافتها إلى كلمات البحث والبحث مرة أخرى. ما يتم عرضه 
للمستخدم هو نتائج البحث الثانية مباشرة مع عدم إظهار النتائج الأصلية له. 


. معجم المترادفات: وهو معجم أو قاموس يحتوي على المصطلحات وبعض 
المرادفات ها. يمكن أن يكون هذا المعجم a‏ من خلال لغويين أو مبنيًا بطريقة 
XUI‏ . قبل عملية البحث تضاف هذه المرادفات لمصطلحات البحث الأصلية 
ليتم البحث في مجموعة الوثائق عن التي تحتوي على كلمات البحث أو مرادفاتها. 

ودائما ما تكون نتائج هذه الطرق لإثراء كلمات البحث غير ثابتة؛ فأحيانا تساعد هذه 

لرن على تحسين النتائج وأحيانًا: تؤدي إلى الإضرار بها . وهذه مشكلة معهودة في معظم 
التقنيات وخصوصا ale Us‏ منها باسترجاع المعلومات؛ وهي مشكلة الدقة مقابل الكم. 
ss‏ زادت المرادفات في كلمات البحث US‏ زادت احتالية استرجاع نتائج ذات صلة 
تصميم محرك بحث بخاصية إثراء كلمات البحث مراعاة أن النتائج لن تكون Ela‏ أحسنَ 
ما تكون. وعليه» فمن الأفضل أن تكون هذه الخاصة اختيارية» بحيث يستطيع المستخدم 
الاستفادة منها أو تركها. 


E us 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
/ ;1 ا 


٤‏ - تقييم البحث 
٤‏ و -١‏ كيفية بناء مجموعات اختبار لاسترجاع المعلومات 
يجب تقييم أداء محرك البحث للتأكد من قدرته الفعالة على استرجاع المعلومات 
ولمعرفة نقاط ضعفه والقدرة على تحسينها. من أجل عملية التقييم» يمكن بناء مجموعة 
بيانات لاختبار حركات البحث بطريقة علمية وعملية في نفس الوقت. مجموعة الاختبار 
ينبغي أن تحتوي على ثلاثة عناصر أساسية: مجموعة الوثائق» ومجموعة موضوعات 
البحثء وتحديد الوثائق ذات الصلة. 

عنصر مجموعة الوثائق يكون في الغالب هو نفسه الذي يعمل عليه محرك البحث. 
وإن كان لا يوجد مجموعة معينة للوثائق ويراد اختبار محرك بحث معين أو طريقة 
بحث معينة» فيجب تحضير مجموعة بحث ذات طابع مناسب لمحرك البحث» وينبغي 
أن يكون عدد الوثائق في هذه المجموعة مقاربًا للواقع» بحيث لا يقل عن عشرات أو 
مئات الآلاف. 

بالنسبة لمجموعة موضوعات البحث» يتم تجهيز مجموعة من الموضوعات الاختبارية 
ليتم البحث عنها في مجموعة الوثائق» وعند كتابتها يفضل مراعاة بعض الشروط: 

* أن تكون مناسبة لمجموعة البحث المختبرة من حيث الطابع وأحيانا الفترة 
الزمنية. فعندما تكون مجموعة البحث عبارة عن مقالات إخبارية لإحدى 
الجرائد في فترة من الفترات» فليس من المتوقع أن تكون موضوعات البحث عن 
مقالات علمية في مجال الكيمياء» كما أنه ليس من المتوقع أن تكون موضوعات 
البحث عن أخبار في فترة زمنية تلي فترة مجموعة الوثائق بخمس سنوات. فغالبا 
ما تكون الأحداث مغايرة والأشخاص جددًا. 

* أن يوضح مع كل موضوع التفاصيل لما يتم البحث عنه بالتحديد ونوع وثائق 
المستندات المتوقع أن تكون ذات صلة. هذا التفصيل مهم جذاء حيث تحتمل 
كلمات البحث - كما ذكرنا i‏ - أن تأخذ معاني مختلفة» بالإضافة إلى أن تقييم 
المستخدمين لما كان ذا صلة يختلف من شخص لآخرء ولذا يفضل lo‏ التفصيل 
في شرح ما ينبغي اعتباره ذا صلة. 
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٠‏ آلا يقل ode‏ موضوعات البحث عن YO‏ موضوعا. هذا الرقم بالتحديد جاء 
عن طريق عدة أبحاث في Jle‏ استرجاع المعلومات؛ إذ da3‏ أن هذا العدد هو 
أقل عدد لتكون النتائج الناتجة عن التقييم معبرة فعلا عن قدرة نظام البحث. 
بالطبع كلما زاد عدد الموضوعات US‏ كان أفضل» حيث إن الرقم المتعارف عليه 
في كثير من الأبحاث ني محال استرجاع المعلومات هو 0٠‏ موضوعًا اختباريًا. 


| أحداث cds 1/١١‏ البحث | 
أحداث ال مجمات على برجي التجارة العالميين في الولايات المتحدة الأمريكية | شرح موضوع 


الوثائق ذات الصلة ينبغي أن تتحدث في الأساس عن هذه الحادثة وتفاصيلها 
أو على الأقل النقاط الأساسية للموضوع . الوثائق التي تتناول تداعيات | سرد الموضوع 
اجات دون الخوض في تفاصيل الهجات نفسها لا تعد ذات صلة. 


الجدول :5-١‏ مثال لموضوع بحث اختباري بعناصره التفصيلية» يُمكن استخدامه في عمليّة التقييم. 

يوَضْحٌ المثال المعروض ني الجدول )٥-١(‏ أهمية وجود التفاصيل» حيث يمكن لأي 
مستخدم في هذه ا حالة تقييم أي وثيقة إن كانت ذات صلة آم لا. وهذا يفتح الحديث 
عن العنصر الثالث لمجموعة الاختبار» وهو تحديد الوثائق ذات الصلة لكل موضوع. 

تحديد الوثائق ذات الصلة هو ثالث عنصر أسامي لاستكمال عناصر تقييم البحث. 
ينبغي تحديد الوثائق ذات الصلة لكل موضوع بحث حتى يمكن بعد ذلك اختبار أي 
نظام استرجاع معلومات على قدرته على استرجاع تلك الوثائق. 

الطريقة المثالية لتحديد كل الوثائق ذات الصلة بموضوع ما تتمثل في مراجعة كل 
الوثائق التي في المجموعة حتى لا يتم إفلات أي موضوع. بالطبع هذه الطريقة إن كانت 
مثالية فإنها غير واقعية بالمرة. فمن المستحيل مراجعة عشرات الآلاف من الوثائق» بل 
وأحيانا عشرات الملايين منهاء لتحديد ما كان ذا صلة. الطريقة الواقعية هنا تعتمد على 
تحديد ما كان ذا صلة عن طريق مراجعة الوثائق المسترجعة من عرك البحث فقط. 
ولكن أي محرك بحث هذا؟ أهو الذي یراد اختباره؟ كيف يكون ما يراد اختباره هو 
نفسه الذي سوف يستخدم في تحديد ما كان ذا صلة؟ في هذه الحالة ستكون كل النتائج 
منحازة لهذا المحرك البحثيٌّ. وهذا يتم استخدام أسلوب «التجميع» لحل هذه المشكلة. 
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* يتم البحث بموضوعات البحث باستخدام أكثر من حرك بحث وحفظ قائمة 
النتائج لكل محرك. 
* يتم البحث بأكثر من طريقة واحدة في محرك البحث الواحد؛ فيمكن كمثال 
تفعيل إثراء كلمة البحث بطرق مختلف. كا يمكن استخدام ALS‏ البحث 
بالإضافة إلى شرح الموضوع لموضوعات البحث الاختبارية (الجدول .)08-١‏ 
يتم حفظ قائمة النتائج في كل مرة. 
* يتم تجميع قوائم النتائج كلها في قائمة واحدة طويلة بعد حذف النتائج المتكررة. 
فيمكن أن تؤخذ قائمة نتائج تحتوي على ٠١‏ وثيقة لكل طريقة بحث. بفرض 
تجميع ٠١‏ قائمة» فالعدد النهائي للوثائق المسترجعة يمكن أن يكون 00١‏ بعد 
التأكد من عدم تكرار أي وثيقة مسترجعة في القائمة المجمعة. 
* ترتب الوثائق في القائمة المجمعة بشكل عشوائى حتى لا يعطى انطباعًا ob‏ 
الوثائق في أعلى القائمة تكون ذات احتالية أعلى لتكون ذات صلة. 
* تعرض القوائم المجمعة لموضوعات البحث الاختبارية على مستخدمين ليتم 
مراجعة كل SU JE‏ في القائمة وتحديد ما OIS‏ ذا صلة بموضوع البحث بناءً على 
تفصيل ال موضوع (ك| هو موضح في الجدول Y‏ 07( 
° يتم حفظ تقييم الوثائق إن كانت ذات صلة أو لا با موضوع لتستخدم لاحقا في 
بالطبع هذه الطريقة Y‏ تضمن تحديد كل s JE‏ ذات الصلة» ولكنها على الأقل 
تضمن إلى حد كبير استرجاع عدد كاف من الوثائق ذات الصلة» والأهم من هذا عدم 
انحيازها إلى حرك بحث أو طريقة بحث معينة. 

عند اختبار أي نظام استرجاع معلومات لاحقاء يتم البحث بموضوعات البحث 
كمية الوثائق ذات الصلة التي نجح نظام استرجاع المعلومات المختبر في استرجاعها. 
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£ و - نسبة الدقة (precision)‏ مقابل نسبة الاستر جاع (recall)‏ 

Jea الصلة حيبت إن‎ col SU Jl هو الور عل‎ eel lae من‎ e AI 
البحث يقاس بمؤشرين رئيسين» هما مؤشر الدقة ومؤشر نسبة الاسترجاع. ويقوم‎ 
I عن عملية‎ ACIE مؤشر الدقة بحساب تسبة المستتدات والوثائق ذات الضلة‎ 
مقارنة بالعدد الإجمالي للمستندات والوثائق الناتجة عن عملية البحث؛ بين| يقوم مؤشر‎ 
الاسترجاع بحساب نسبة الوثائق ذات الصلة المسترجعة من عملية البحث مقارنة‎ 
للوثائق ذات الصلة. ولتيسير ذلك يمكن القول إن مؤشر الدقة يشير‎ ue I بالعدد‎ 
إلى قدرة المحرك على استرجاع وثائق ذات صلة ولكن ليست ضمن مجموعة كبيرة من‎ 
الوثائق الأخرى. أما نسبة الاسترجاع فتشير إلى مدى نجاح المحرك في استرجاع أكبر‎ 
كم ممكن من الوثائق ذات الصلة من مجموعة الوثائق.‎ 

١ olli‏ والمعادلة Y‏ توضحان كيفية حساب كل من الدقة ونسبة الاسترجاع: 

نسبة الدقة = (عدد الوثائق ذات الصلة المسترجعة)/ (مجموع الوثائق المسترجعة)...... QD‏ 

نسبة الاسترجاع = (عدد الوثائق ذات الصلة المسترجعة)/ (مجموع الوثائق ذات 


ما يمكن استنتاجه من المعدلات أن قيمة نسبة الاسترجاع تزيد S‏ زاد عدد الوثائق 
المسترجعة» فهذا يعطي احتمالية أكبر لاسترجاع وثائق ذات صلة» ولكن في نفس الوقت 
غالبا ما يؤدي هذا إلى انخفاض الدقة OY‏ احتمالية استرجاع وثائق ليست ذات صلة 
يزيد أيضًا مع زيادة عدد الوثائق المسترجعة. 

كمثال لحساب كل من الدقة ونسبة الاسترجاع» نفرض أنه تم اختبار أحد محركات 
البحث بأحد الموضوعات التى حدد لما ٠١‏ وثيقة ذات صلة. بفرض أن محرك البحث 
dtes bo cats adl loeo der Bes s ete LU d‏ 
نقاط مختلفة في قائمة النتائج كا هو موضح في الجدول :)١-١(‏ 
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الجدول :5-١‏ مثال يوضح كيفية حساب كل من مؤشر الدقة ومؤشر نسبة الاسترجاع عند نقاط 
مختلفة من قائمة النتائج لموضوع اختباري له ١‏ وثيقة ذات صلة. 


كما يتضح من الجدولء فإنه في الغالب تقل الدقة كلما زادت أعداد الوثائق المسترجعة 
وعلى العكس تزيد نسبة الاسترجاع كلما زادت هذه الأعداد. ولهذا فإنه في Jle‏ استرجاع 
المعلومات ينبغي أن يتم التوازن بين الدقة ونسبة الاسترجاع. 

(precision average mean) متوسط الدقة‎ -Y , ٤ 

متوسط الدقة (MAP -precision average mean)‏ هو المقياس الأكثر انتشارا 
لتقييم نظم استرجاع المعلومات. فهو يقيس متوسط الدقة عند نقاط ختلفة في قائمة 
النتائج. وكا أشرنا آنقاء فإن الدقة تحسب عند نقطة معينة في قائمة النتائج» أما متوسط 
الدقة فهو يحسب على أنه متوسط قيم الدقة عند النقاط في القائمة التي توجد فيها وثيقة 
ذات صلة. وبعبارة أخرى» cz‏ الدقة كلما وُجدت وثيقة col‏ صلة» ثم يتم حساب 
المتوسط لكل القيم المحسوبة. كمثال لهذاء إذا افترضنا وجود ست وثائق ذات صلة في 
النتائج العشرة المسترجعة الأولى في المراكز: AN »4 AcE ء١ ١١‏ فإن متوسط الدقة 


يحسب JIS‏ 
الدقة عند هذا ال كز عدد الوثائق ذات الصلة التي | المركزالذي تو i:‏ ذات 
عثر عليها إلى الآن صلة في قائمة النتائج 
١ ١ ۱/۱‏ 
Y Y peg‏ 
Y (voc EfY‏ 3 
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الدقة عند هذا المركد عدد الوثائق ذات 0 التي المركز الذي توجد فيه ds‏ ذات 
عثر عليها إلى الآن صلة في قائمة النتائج 
1E‏ 08( 3 1 
q 0 ١,06 - 6‏ 
E 1 (182 ١/5‏ 
متوسط الدقة فى هذه الحالة - 


VC, ,008, V, VO AY)‏ دكار 

ولك د دة حاب E daas gin‏ = وي خاب aua gin‏ ]35.0 عبد كل bel‏ 
التي توجد فيها وثيقة ذات صلة إلى أن يتم العثور على كل الوثائق ذات الصلة المحددة 
في مجموعة الاختبار. وب أنه أحيانا يمكن ألا يتم استرجاع كل هذه الوثائق» فإنه يعتبر 
أن تلك الوثائق الغير مسترجعة وجدت عند المركز اللا غهائى لتكون الدقة في هذه الحالة 

متوسط الدقة - مجموع قيم الدقة عند كل وثيقة ذات صلة في قائمة البحث / مجموع 
الوثائق ذات الصلة en‏ 

فإذا افترضنا في المثال السابق أن عدد الوثائق ذات الصلة هو ثانية وأن ما تم 
استرجاعه هو ٦‏ فقط. تكون قيمة متوسط البحث هى: 

S,0V =A /( بحب‎ +°, T+, Voce Y) 

ما يمكن استنباطه من طريقة حساب متوسط الدقة أنه يركز على إيجاد الوثائق ذات 
الصلة على قمة قائمة النتائج» إذ إن إيجاد وثائق ذات صلة في مركز متأخرة في القائمة 
لا يضيف الكثير إلى قيمة القياس. وهذا فإن متوسط الدقة يعطي أفضلية للنظم التي 
تستطيع أن تسترجع وثائق col‏ صلة مبكراء وإن لم تجد كل الوثائق ذات صلة. 


5 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
| ييا 


ه - حر كات بحث الشّبكة العنكبوتيّة 

تعد محركات بحث الشّبكة العنكبوتيّة [الويب] أكثر أنواع محركات البحث 
استخداماء حيث SEE‏ مُستخدموها في جميع أنحاء العالم. وتعتمدٌ الفكرة الأساسية 
لمحركات بحث الويب على نفس فكرة استرجاع المعلومات؛ ولكنها تختلف عن 
محركات البحث العادية في ide‏ أشياء» منها: 

-١ 5‏ مجموعة الوثائق: من أهم الطباع الخاصة جدا بمحركات بحث الويب 
تنوع أشكال الوثائق التي يتم البحث فيها. فإن البحث يشمل صفحات 
الويب والصورء es M‏ والمقالات العلمية» والأخبار» وغيرها. كما أن 
أحجام مجموعة الوثائق يصل إلى مليارات الوثائق. هذا يعطي طابعا خاصا 
لمحركات بحث الويب حيث ينبغى أن تكون قادرة على معالجة هذا العدد 
ull‏ من الوثائق بمختلف dad‏ 

Y, o‏ 7 تجميع الصفحات والبيانات من على الإنترنت: بخلاف معظم محركات 
البحث التي تكون فيها مجموعة الوثائق متواجدة ليكون كل ما على محرك 
البحث هو تنظيمها وفهرستهاء فإن محرك بحث الويب يكون عليه أن يجمع 
الصفحات التي يريد فهرستها أولا من على الإنترنت. وهذا OB‏ عملية 
میم البيانات تعد من eal‏ عناصر فعالية حركات بحث الويب؛ فلا فائدة 
من وجود محرك بحث قوي للويب إن كان لايحفظ الصفحات التي سيبحث 
فيها من الأساس. وبعض محركات البحث للويب تمتلك أفضلية على أخرى 
ليس بسبب أفضليّة نظام البحث؛ وإنا OY‏ أحدهما يستطيع تجميع صفحة 
الويب بشكل أكثر فعالية. 

0 "- التحديث المستمر: المحتوى على الشّبكة العنكبوتيّة محتوى ديناميكي غير 
ثابت ويحدث له تحديث بشكل مستمر. وقد فافض كاك سنيف الزيت 
ينبغي أن تقوم بتحديث الفهرس أولا بأول هذا الكم ا هائل من الصفحات 
بشكل La‏ يعن غر ات يسك الريب قوم يعمل edel‏ 
للفهرس لبعض الصفحات عدة مرة في الساعة الواحدة لتواكب التغير 
المستمر في المحتوى للحصول Glo‏ على نتائج بحث مستحدثة. 
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٥‏ و ٤‏ - طريقة البحث: طريقة استرجاع المعلومات لمحركات بحث الويب تكون 
أكثر تقدما بكثير من محركات البحث العادية. فهي لا تعتمد على تطابق 
المصطلحات فقط» وإنا تمتد لتشمل خصائص كثيرة جدا منها: 

* أهمية الصفحة: فإنها من أهم الخصائص الواجب أخذها في الاعتبار 
عند البحث» فليست كل الصفحات على الإنترنت تكون بنفس ذات 
الأهمية حتى وإن كانت تحتوي على نفس المحتوى. كمثال لأهمية 
هذه الخاصية» عند البحث عن كلمة «برنامج مايكروسوفت 5555( 
فإن النتائج يمكن أن تحتوي على إحدى الصفحات التي تشرح كيفية 
استخدام هذا البرنامج» ويمكن أن تكون هذه المصطلحات ظهرت 
مرات عديدة داخل الصفحة؛ فاي Sx‏ بحث عادي سيضع هذه 
النتيجة في ا مركز الأول في قائمة النتائج. أما بالنسبة لمحرك البحث» OP‏ 
صفحة موقع شركة مايكروسوفت الرسمية على الإنترنت أكثر أهمية من 
تلك الصفحة» وههذا فإن الصفحة Dal‏ على موقع الشركة» حتى وإن 
لم تظهر بداخله كلمات البحث إلا مرة واحدة. B‏ من المفضل أن تكون 
هي النتيجة التي على رأس القائمة ثم تليها بعد ذلك النتائج ذات الصلة 
الأخرى. 

* سجل الاستخدام: أي حرك بحث ويب ناجح يقوم بتسجيل ما يقوم به 
مستخدموه من عمليات بحث في سجل حتى يستفاد منه لاحقا في تحسين 
أداء المحرك. يتم حفظ بعض المعلومات في هذا السجل ككلمات البحث 
التي يبحث عنها المستخدمون والنتائج التي يختارونها هذه الكلمات. 
فإذا وجد في السجل أن معظم المستخدمين يقومون (elo‏ باختيار النتيجة 
الرابعة لأحد موضوعات البحث» فهذا دليل قوي على أن هذه النتيجة 
هي أفضل من سابقاتهاء ومن ثم يقوم محرك البحث بإظهارها على قمة 
النتائج بدلا من المركز الرابع. 

* مكان المستخدم: يمكن لمحرك البحث معرفة مكان المستخدم عن 
طريق عنوانه الذي يقوم منه بعملية البحث. هذه المعلومة تساعد على 


E dm 
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تحسين النتائج خصوصا لكلمات البحث التي فيها التباس» كال مثال الذي 
استخدم في بداية الفصل عن «النادي الأهلي». حيث يمكن لمحرك 
البحث تحديد النادي المقصود عن طريق معرفة مكان مستخدم up‏ 
البحث. 

0,0- كيفية التقييم: تقييم أداء محركات بحث الويب يختلف قليلا عن نظم 
استرجاع المعلومات العادية. الفرق الأساسي هو تعريف ما كان ذا صلة» 
فالوثائق لا تحدد على ef‏ ذات صلة أو لاء وإنما ما كان ذا صلة ke Ael‏ 
متدرجاء بحيث تحدد الوثائق في النتائج على Ue u$‏ إجابة: -مثالية» ممتازة» 
جيدة» مقبولة» سيئة- وتستخدم قياسات أخرى للتقييم تعتمد في الأساس 
على تقييم قدرة محرك بحث الويب على استرجاع النتائج الأفضل أولا. 
وغالبا ما تحسب القياسات على استرجاع عشرة وثائق على الأكثر حيث إن 
مستخدم الويب في الغالب لا يقوم بتفحص أكثر من عشرة نتائج بحث. 

all pls RM E‏ لريب كو ]5 luis‏ رقنا 

من حركات البحث الأخرى. ومن الأمثلة الشهيرة على محركات بحث الويب: جوجل 
(Google)‏ بينج (Bing)‏ ياهو (Yahoo)‏ ياندكس (Yandex)‏ بايدو .(Baidu)‏ 


٦‏ - حر كات البحث المكتبية 

محركات بحث المكتبات تعد أيضا من أكثر أنواع نظم استرجاع المعلومات انتشارا. 
ليس بالضرورة أن تكون هذه المحركات داخل المكتبات فقط ولكنها أيضًا تشمل 
محركات البحث الخاصة بالكتب عامة كمواقع الكتب على الإنترنت. فكلها ذات طابع 
متماثل وتحتاج إلى طرق itl‏ متشابهة. مجموعة الوثائق في هذه ال حالة تكون عبارة عن 
كتب غالبا ما تكون ذات أعمار مختلفة. 

ما يميز استرجاع المعلومات للمكتبات هو وجود محتوى الكتب القديمة. با أن 
الكتب القديمة التي ترجع إلى ما قبل منتصف القرن العشرين تكون متواجدة فقط في 
صورة كتب مطبوعة» فمن أجل تفعيل عملية البحث لا بد من تحويل هذه الكتب إلى 
كتب رقمية تخزن على الحاسوب حتى يستطيع المستخدم البحث في محتواها بسهولة. 
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الطريقة LEM‏ لتحويل محتوى الكتب إلى شكل رقمي هي إعادة كتابتها وإدخاها 
للحاسوب عن طريق أشخاص متخصصين» ولكن هذه العملية يعيبها البطء الشديد 
والتكلفة الباهظة جدا لإدخال الآلاف وأحيانا مئات الآلاف من الكتب. 


الحل البديل لعملية تحويل الكتب إلى الشكل الرقمي هو استخدام نظام التعرف 
الضوئي على الحروف OCR‏ (التفصيل لنظم التعرف الضوئي على الحروف يوجد في 
الباب الخامس عشر)» بحيث يتم تحويل محتوى الكتب UT‏ إلى شكل رقمي وحفظ 
النص على الحاسوب لتفعيل القدرة على البحث. هذه الطريقة تتميز بالسرعة الفائقة 
والتكلفة الموفرة» ولكن تتمثل المشكلة الأساسية في وجود بعض الأخطاء في التعرف 
على بعض ا حروف. وجود أخطاء في بعض الحروف يؤدي إلى عدم تطابق المصطلحات 
أثناء عملية البحثء وبالتالي يؤدي إلى انخفاض مستوى نتائج البحث. كمثال هذه 
الأخطاء إذا تم التعرف على كلمة «أحمد» في النص المطبوع على أنها «Ge‏ فهذا 
يؤدي إلى عدم استرجاع الوثيقة عند البحث عن كلمة ete‏ يؤدي إلى الاسترجاع 
الخاطئ oid‏ الوثيقة عند البحث عن كلمة Ge‏ 
هناك عدة أساليب متبعة من أجل تفادي هذه المشكلة الناحمة عن التعرف الخاطئ 
لبعض ال حروف. يمكن ذكر أهمها كالآتي: 
-١5‏ طريقة مطابقة المصطلحات: في هذه الحالة تتم فهرسة المصطلحات 
بطريقة تؤدي إلى إمكانية التطابق النسبي بين الكلمات حتى في حالة وجود 
uae‏ الأخطاء رن تسريف الممنظلم ن خلا الا هرا ل EE‏ 
لحروف الكلمة» بحيث يتم استعراض الكلمة عن طريق متسلسلات 
الحروف الثناثية أو الثلاثية أو الرباعية للكلمة. كمثال» عند استعراض كلمة 
«أحمد» بالتسلسل الثلاثي للحروف تصبح كالآتي: «#أح أحم Ju‏ مد#» 
بحيث يتم استعراض كل ثلاثة حروف متجاورة للكلمة وعلامة الشباك 
Gf»‏ تكون لتحديد بداية xl‏ الكليات. في هذه الحالة» وعند التعرف 
الخاطئ على حرف الدال على أنه راء» تكون الكلمة محفوظة في الفهرس 
uS‏ اح أحم حمر مر#)؛ فعندما يتم البحث عن كلمة ce‏ يتم 
تجهيز كلمة البحث بنفس الطريقة» فيكون التطابق بين الكلمة الصحيحة من 
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Due ia p خط‎ doces quise aimed 
هذه الطريقة أثبتت فعاليتها في‎ . el | حيث إن الكلمتين تشتركان في «#أح‎ 
كثير من الأبحاث في هذا الموضوع للغات مختلفة» حيث إنها تؤدي إلى تحسين‎ 
نتائج البحث للكتب المتعرف على نصوصها ضوئيًا بشكل واضح‎ 

٦‏ ۲- تصحيح الأخطاء في النصوص: وهذه طريقة أخرى لتحسين نتائج 
الببحث» حيث يتم استخدام نماذج اللغة وبعض الطرق الإحصائية لتصحيح 
هذه الأخطاء قبل عملية الفهرسة. 

Y , >‏ - إدخال الأخطاء على كلمة البحث: هذه طريقة بسيطة يتم فيها استخدام 
بعض المعلومات من الإحصاءات عن طبيعة الأخطاء التي يمكن أن تحدث 
في التعرف الضوئي على الحروف» ثم يتم تطبيقها على كلمة البحث التي 
يُدخلها المستخدم بحيث تحتوي على كل احتمالات التعرف الخاطئ على كلمة 
البحث في الكتب. يتم التعامل مع هذه الكلمات على أنها مترادفات لتحسين 
عملية البحث. كمثال dib‏ عند إدخال كلمة «أحمد» في البحث» يمكن 
توقع أن تكون هذه الكلمة ڌ تم التعرف عليها خطأ في نصوص الكتب من 
بعد الإحصاءات على أنبا: cue‏ «أخمد» » «أخمر) ۰ فيتم اعتبار كل هذه 
الاحتمالات لكلمة «أحمد» على Gel‏ مترادفات ليتم البحث عن Gel‏ في الوثائق. 
هذه الطريقة UT‏ أثبتت فعاليتها في تحسين نتائج البحث في كثير من الأحيان. 

هناك طرق معالجة أخرى هذه المشكلة في حركات بحث المكتبة أو الكتب» كلها 

تعتمد على حاولة تفادي الأخطاء التي تحدث في عملية التعرف QVI‏ على الحروف. 


ما oom‏ ل 

cs e. وجود‎ jl من‎ E Twitter تويتر‎ Fe (Facebook) d 

بحث فعالة لتَمَكّنَ المستخدم من الوصول إلى ما يحتاجه من معلومات على تلك المواقع 
تتميز مواقع التواصل vag gelu dion ue ndi‏ عن genera‏ 

استرجاع المعلومات تواجه بعض التحديات . وتتمثل هذه المخصائص فی يلي: 
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-١‏ تنوٌع المحتوى: يتميّر محتوى المشاركات على شبكات التواصل الاجتماعي بالتنوع 
الكبير ما بين مشاركات نَضّية وصور ومرئيّات وروابط خارجية. ويُضِيفٌ هذا 
التنوع تحديًا آحر في عملية استرجاع المعلومات من مواقع التواصل الاجتماعي. 

Y‏ - الكميات الكبيرة من المشاركات: o s‏ عدد المشتركين في موقع تويتر في منتصف 
عام ۲۰۱۲ إلى نصف مليار مشترك» يقومون بإرسال ما يزيد على ٠٠١‏ مليون 
رسالة قصيرة يوميًا عبر الموقع . وبالنسبة لوقع فيسبوك فقد تخطّى عد المشتركين 
المليار مشترك في أوائل عام eua Y‏ - كل ٠‏ دقيقة - وضع ما يزيد على 
مليون مشاركة على الموقع وإرسال أكثر من Y‏ مليون رسالة خاصة. ويجعلٌ هذا 
الكم الحائل من المشاركات على مواقع التواصل الاجتماعيّ عملية استرجاع 
المعلومات في غاية الصعوبة؛ بل يجعل حتى في عملية عرض نتائج البحث نفسها 
Es‏ من التحدي لكثرة وتنوع المحتوى. 

-Y‏ اللغة المستخدمة: وهي التي تمِيلٌ في الغالب إلى العامّية. ويُعَيرُ معظم مُستخدمي 
مواقع التواصل الاجتماعي Ce‏ بداخلهم فيه| يكتبونه» ما يجعلهم في معظم الأحيان 
يعبرون ae‏ بلهجة التخاطب العادية دون اللغة الرسمية. تتضح هذه الظاهرة 
بقوة في اللغة العربية بشكل خاص بسبب تعدد لهجاتها في ختلف الأقطار العربية. 
فهناك اللهجة المصرية والشامية والخليجية وا مغربية وغيرهاء وان كانت تجمع Js‏ 
هذه اللهجات لغة رسمية واحدة. ولكن يوجد فرارق كبيرة بينها عبد الاستخدام 


في مواقع التواصل الاجتماعي. es‏ المثال في الجدول أسفله مثالاً على تنوع 
اللهجات في اللغة العربية: 
| اللهحة الجملة | 
العربية الفصحى ماذا تريد؟ 
المصرية عایز fal‏ 
الشامية شو CJL‏ 
الخليجية ايش تبي ؟ 
المغربية ویش تحب؟ 
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يوضح الال الاختلاف الكبير بين مختلف اللهجات العربية في التعبير عن نفس 
T Ni‏ هذا الاختلاف الكثير من التحديات أمام نظم استرجاع المعلومات» 
حيث تحتاج كل هجة من هذه اللهجات إلى عمليات معالجة خاصة با. فطرق إضافة 
السوابق واللواحق في اللهجات العامية مختلفة عنها في اللغة الفصحىء كمثال D)‏ 
ألعب» في الفصحى» حيث تذهب في العاميات المختلفة إلى: «مالعبتش)» «مالعبت»» 
«مو لعبت»). وكذلك بالنسبة لمجموعة الكلهات المستبعدة الخاصة في العامّية» كمثال 
uer con «JUD‏ من غا الك عن 

وبا أن مواقع التواصل الاجتاعيّ نفسها لم تظهر إلا في السنوات الأخيرة» فإن 
لحلول البحثية لتحديات عملية استرجاع المعلومات هذه المواقع ما زالت في خطواتها 
الأولى. ويستطيع المستخدم العادي الشعور بمشكلة البحث بنفسه على هذه المواقع» 
مثل: فيسبوك وتويتر. حيث يكون الوصولٌ إلى معلومة معينة في منتهى الصعوبة. 
كذلك op‏ عرض النتائج لا يؤدي إلى الوصول للمطلوب بالشكل المرضي للمستخدم. 

وعلى الرغم من هذاء فإن هناك العديد من الأبحاث لتحسين انطباع المستخدمين عن 
عمليات البحث على مواقع التواصل الاجتماعي. ويمكن تلخيص مجالات الأبحاث في 
استرجاع المعلومات من مواقع التواصل الاجتماعي في النقاط التالية: 


Y, V‏ - دراسة دوافع البحث على هذه المواقع 

كانت محاولة فهم دوافع المستخدمين للقيام بعمليات البحث على شبكات التواصل 
الاجتماعي من أقدم الدراسات للباحثين في Jle‏ استرجاع المعلومات» والموضوعات 
التي يبحثون عليها وكيفيّة مُقارنتها بالبحث على الويب. أظهرت تلك الدراسات أن 
دوافع البحث تكون في أغلب الأحيان لمعرفة آخر التحديثات والأخبار عن شخص 
أو حدث ما. وأكدت معظم الدراسات أن التحدي الأساسي في استرجاع المعلومات 
من هذه الشبكات يكون بسبب قِصّر المشاركة ولغتها. فالمشاركات تحتوي على عدد 
محدود من الكلمات بلغات دارجة وليست رسمية» فيكون العثور عليها صعبًا. وقد 
مهّدّت هذه الدراسات الطريقٌ لفهم عمليات البحث بشكل أحسنء كما حمّرّت لبناء 
نظم استرجاع معلومات متخصصة لتلك البيانات. 
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۷ 7 - عرض النتائج بشكل منظم 

عند البحث عن موضوعاتٍ عامّة في مواقع التواصل الاجتماعي» فإن النتائج 
تكون كثيرة جذا ومتنوعة. كمثال» عند البحث على تويتر باستخدام [هاشتاج (#088)] 
لمتابعة آخر المشاركات عن موضوع معيّن» تكون النتائج أحيانا بالآلاف» نما يجعل 
متابعة المشاركات المتعلقة عمليّة صعبة. بالإضافة إلى أن هذه المشاركات تنقسم إلى 
آراء نصية وأخبار وروابط ومرئيّات وصور وغيرها. أدى ذلك إلى استحداث وتطوير 
بعض النظم الخاصة لعرض النتائج بشكل منظم ومختصر للمستخدمين ليتسنى هم 
معرفة المعلومات عا يبحثون عنه. 5 A22‏ «تويت موجز) (TweetMogaz)‏ أحد هذه 
الأمثلة للمواقع المتخصصة في البحث في المشاركات (التغريدات) العربية على موقع 
تويتر. Sls‏ طريقة البحث وعرض النتائج تختلف كلية عن البحث على موقع تويتر 
نفسه. esee‏ يتم البحث عن طريق تحديد كلمات البحث؛ وفي نفس الوقت يتم تحديد 
المدة الزمنية لاسترجاع التغريدات ذات الصلة ف خلاها؛ ثم gl‏ الفارق الأساسي 
(في طريقة عرض النتائج)» حيث يتم معالجة كل المشاركات المسترجعة لاستخراج 
المشاركات الأكثر انتشارًا في الفترة الزمنية المحددة» وأيضا المشاركات الفكاهية» 
co AL‏ والصور الأكثر تداولا عبر المشاركات» والأخبار والمقالات التي يتم بها 
المستخدمون عبر مشاركاتهم. 

وتعطي هذه الطريقة المستخدم صورةً كلية fe‏ ينشره مُستخدمو المواقع الاجتماعية 
عن موضوع البحث؛ وهذا يعطي فكرة عامّة عن الرأي العام بالنسبة لموضوع Dite‏ 

/ا, -Y‏ متابعة موضوعات بح (Filtering Information)‏ 

وهو من أكبر تطبيقات علم استرجاع المعلومات» حيث يكون موضوعٌ البحث 
ثابتا. ويكون دور نظام استرجاع المعلومات هو تصنيف الوثائق والمستندات إلى ذات 
صلة أو غير ذات صلة بدلا من الترتيب. ويستخدك هذا التطبيق في مجالات كثيرة» من 
أهمها: مُتابعة موضوعات البحث على شبكات التواصل الاجتماعي. 

ومن أمثلة ذلك: قيام المستخدم بتحديد موضوع بحث عن شخص أو حادثة ibas‏ 
ثم يقوم نظام البحث بتصنيف المشاركات الجديدة التي تظهر على Gel‏ ذات صلة el‏ لا 
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ثم يتم عرض المشاركات ذات الصلة 3G YS‏ للمستخدم في حين ظهورهاء وبهذا 
يكون متابعا للموضوع المتحرّى عنه. وتتم عملية التصنيف بشكل dl‏ بناءَ على نموذج 
تصيف مب من بعضن الأمغلة LAE S ute ME‏ للمشاركات ذات الصلة بموضوعات 
p‏ 


V‏ ,£- التنبؤ بالكوارث 

يعد التنبؤ بالكوارث من أهم التطبيقات التي يتم دراستها في استرجاع المعلومات 
من شبكات التواصل الاجتتاعيّ. بدأ هذا الموضوع bleal Jb‏ كبيرًا بعدعام 25١٠١‏ 
حيث حدثت ELA‏ كبيرة حول العالم» كان لمواقع التواصل الاجتماعي تويتر 
وفيسبوك دور كبية باءهن lal‏ ذلك: JE‏ عايض 51١ Ges ulols uscY Ve‏ 
وإعصار ساندي في أمريكا diee le ML CT V de Raul ob gig cr Y‏ 
اليونان وإسبانيا Y‏ 


لقد اكتشف الباحثون الدورٌ الخطير لمواقع التواصل الاجتماعيء والتي تتحول وقت 
الأزمات بشكل خاص إلى مكان للاستغاثة والتنظيم ونقل الأخبار بشكل تعجز عنه 
وسائل الإعلام العادية. كل هذا دفع الكثيرين من الباحثين إلى عمل دراسات لمعرفة 
كيفية التنبؤ بالكوارث والأزمات عن طريق متابعة هذه المواقع وما يكتب عليهاء بحيث 
تكون سببًا للتجهيز المسبق لتفادي الخسائر. بدأت هذه الأبحاث تُدعَم من cil‏ 
الدولية» كالبنك الدولي والأمم المتحدة”"'» للوصول إلى طرق تلقائية لقياس أشياء 
اجتاعية لمناطق العام المختلفة من هذه المواقع» مثل قياس مستويات الفقر والمرض 
والبطالة» بحيث تصل المساعدات الدولية إلى مستحقيها. 

إن تقنيات استرجاع المعلومات لشبكات التواصل الاجتاعي لا تزال في بداياتهاء 
والكثير من التطوير مطلوب لمواكبة الزيادة المطردة هذه الشبكات التى لا يختلف اثنان 
على أهميتها في الحياة اليومية لمعظم مستخدمي الشّبكة العنكبوتيّة. l‏ 


l- http://europeandcis.undp.org/blog/2013/01/11/can-big-data-help-deliver-better-opera- 
tional-results/ 
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(Semantic Search) d البحث‎ -A 
خوارزمات البحث التي تأخذ ني الاعتبار معاني الكلمات‎ dd يمل البحث الدلالٌ‎ 
والمعنى السياقيّ للمصطلحات؛ وليس فقط التّمط الماثل للحروف. وعلى الرغم من‎ 
ا‎ a os سركاك‎ coeli 
بصورتها الحالية ما زالت تُعانى قصورًا يتمثل في غياب فهم كلمات البحث ومعناها‎ 
بتعويض هذا النتقص من خلال‎ PEU في السياق. ومن المتوقع أن يقوم البحث‎ 
استخدام خوارزمات البحث التي تأخذ في الاعتبار معاني الكلمات والمعنى السياقيٌ‎ 
للمصطلحات مما يبشر بفرصة أكبر لزيادة دقة نتائج البحث والحصول على المزيد من‎ 

النتائج ذات الصلة. 

ل عن وو SD‏ البحث وفهم معنى الكلمات الموجودة في مصادر 
البحث. يُتَوَقع أن تكون النتائج التي تنتج عن عملية البحث متصلة بصورة أكبر 
بكلمات البحث وأن المصادر التي لم يكن في الإمكان الحصول عليها في نتائج البحث 
لعدم احتوائها بصورة مباشرة على كلمات البحث - بالرغم من أنها ذات علاقة بها - 
سوف تظهر في المعلومات التي تم استرجاعها. 

ونظرا لما يبشر به البحث YE‏ من ثورة في محال استرجاع المعلومات فقد قامت 
الشركات المنتجة لمحركات بحث الويب ذات الشهرة الواسعة» مثل: «جوجل» و 
«ياهو» و«بينج» .. باتخاذ الخطوات اللازمة نحو الاتجاه إلى هذه التقنية. 

- أمثلة للبحث QJ‏ 

إذا كان هناك محرك بحث يستخدم خوارزمات البحث op JYI‏ إدخال سؤال 
مثل «من هي زوجة لويس الرابع عشر» في صندوق البحث هذا المحرك سوف ينتج عنه 
أن يقوم هذا المحرك بعرض نتائج تتعلق ب «مارى أنطوانيت» في التتائج ذات الصلة. 
وهذا دليل على أن هذا المحرك يستخدم البحث الدلاليّ وأنه قد قام بتحليل كلمات 
البحث وتبين له أن المستخدم يريد استرجاع معلومات عن زوجة لويس الرابع عشر 
وليس لويس الرابع عشر نفسه. 
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كذلك» عند قيام المستخدم بإدخال عبارة «هواتف خلوية» في صندوق البحث 
فسوف يقوم المحرك بعرض نتائج تحتوى على عبارات لها نفس المعنى والدلالة مثل 
«الهواتف النقالة» و «الموبايل» و «المحمول». 
۸ "- كيفية عمل حر البحث GY‏ 
هناك طريقتان تستخدمان في عمل محرك البحث NI‏ 
* الترهيز: وهو العنونة الذلالبة للوثائق والكلات والوحدات النصة الموتجحودة 
على صفحات الويب باستخدام الأنطولوجيا وإحدى لغات الويب «QI‏ 
مثل (OWL: RDFS: RDF, XML)‏ ولا يتم عرض هذا الترميز لمتصفح 
الويب ولكن يمكن لمحرك البحث أن يستخدمه أثناء عملية الفهرسة بغرض 
الاستفادة من هذه المعلومات عند إجراء عملية البحث QI‏ 
* استخدام الذكاء الاصطناعيٌ في فهم المعنى من السياق: فمثلا إذا رأى محرك 
البحث في صفحة على الويب أن ماري أنطوانيت هي زوجة لويس الرابع عشر 
فإنه يستنتج أن لويس الرابع عشر هو زوج ماري أنطوانيت. ويكون هذا بمثابة 
علاقة يبن كلمتى البحث يمكن Solia VE‏ متها عند تكوين الفهرس؟ وبالتال 
E E E E‏ اهرش l‏ 
-Y ,8‏ تطبيقات البحث الدلالّ في اللغة الإنجليزية 
حيث إن البحث GYI‏ قد عَنِيّ بتغيير الطريقة التي يتم بها البحث إلى الأحسن: 
لذلك Op‏ كثيرًا من المجهودات قد بُذلت بغرض إنتاج عدد من التطبيقات والأنظمة. 
ويُعتير )2008 (Wei et al‏ مرجمًا I>‏ لبعض هذه الأنظمة؛ SHOE) A] (S‏ 
٠٠٠١ (Heflin & Hendler‏ واحدًا من أقدم محركات البحث YII‏ ويسمح 
للمستخدمين ببناء تساؤل منطقيّ عن طريق الأنطولوجيات. وبذلك يتطلب هذا 
النظام أن تكون المصادر التي يتم البحث فيها قد تم ترميزها / غنونتها OIN‏ مسبقًا. 
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ومن آمثلة خر قات aalis = QVI esI‏ 

(SHOE) ٠‏ يمد واحدًا من أقدم محركات البحث a IE‏ ويسمح للمستخدمين 
ببناء تساؤل منطقيٌّ عن طريق الأنطولوجيات. وبذلك يتطلب هذا النظام أن 
تكون المصادر التي يتم البحث فيها قد تم ترميزها / عنونتها INS‏ مسبقا. 

(KIM, OWLIR) *‏ وتم الاعتماد Ci‏ على استخدام الاستدلال المنطقيّ وطرق 
استرجاع المعلومات التقليدية معا. ففي حالة ما م يتم الحصول على نتائج باستخدام 
البحث GYI‏ يتحول النظام إلى الطريقة التقليدية في استرجاع المعلومات. 

° (112108عث): وهو نظام للإجابة عن الأسئلة باستخدام NN JI‏ 

هذا بالإضافة إلى محركات بحث الويب المذكورة «Uil‏ مثل: «جوجل» و «ياهو) 
و«ابنج)؛ والتى ا تجهت بالفعل إلى استخدام خوارزمات البحث الدلالي. 

۸ - تطبيقات البحث IYU‏ فى اللغة العربية 

لا UL‏ الأبحاث iall‏ باسترجاع ا معلومات العربيّة o gt‏ إلى درجة كبيرة. ومنها 

eG .(El-Beltagy et al 2003) °‏ البحث باستغراق إضافة بيانات تكميلية إلى 
قصاصات (Snippets)‏ المعلومات الزراعية في إحدى التجارب واستخدامها 
لتحسين استرجاع القصاصات التي ها صلة بكلمات بحث المستخدم. 

(Zaidi and Laskri 2005( *‏ في هذا العمل تم استخدام أنطولوجيا خاصّة 
بالحقل القضائئٌ (Legal domain)‏ مع آلية استرجاع المعلومات. 

.(Qawaqneh, 2) 8‏ يقدم طريقة لترتيب النتائج باستخدام مبداً 
تكرار مبادئ الأنطولوجيا التي تظهر في الوثائق. 

.(Semahtic MediaWiki) *‏ قامت الدّراسة بإضافة اللغة العربية إلى قائمة 
اللغات التي يمكن أن تتعامل مع الترميز GYI‏ عند إنشاء صفحات Wiki‏ 
الرّة لها. وبالتالي أتاحت للناشرين أن يقوموا بنشر محتوى ويب Qo‏ 
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* ومن ناحية أخرى» cel‏ بعض الشركات التي تعمل في Jie‏ البحث de‏ 
الويب أنها سوف تقوم بتقديم محركات بحث LIS‏ للغة العربية. ومن أمثلة 
ذلك: .(The next web) ; (Kngine)‏ 


1- أفكار تصلح للأطروحات العلميّة (الماجستير والدكتوراه) 


إحدى الأفكار التي تصلح OM‏ تفرز رسائل ماجستير» هي إعداد مجموعات 
اختبارية للبحث. يمكن أن يقوم الباحث باختيار إحدى مجموعات الوثائق ذات 
الطابع المحدد والقيام بتجميع مجموعة الوثائق وترتيبها بشكل منظم. ينبغي مراعاة 
الشروط والخصائص التي تم توضيحها آنفا في المجموعات الاختبارية» بحيث يكون 
عدد الوثائق مناسبًا لطبيعة المجموعة» فلا يقل عن عشرات الآلاف. 

وينبغى أيضًا أن تكون موضوعات البحث الاختبارية مناسبة. ويفضل في حالة بناء 
المجموعة الاختبارية عن طريق فريق بحث واحد أن يقوم بالاستفادة من متطوعين 
لاختيار موضوعات البحث الاختبارية» وأيضًا لتحديد الوثائق ذات الصلة. لتفادي 
انحياز نتائج البحث إلى طريقة بحث واحدة» يفضل استخدام محركات بحث ختلفة» 
حيث يتوفر عد منها مجانا من أجل الأغراض البحثية مثل: «Lucene «Lemur Indri‏ 
Terrier‏ وغيرها من محركات البحث المجانية التي يستطيع الباحث أن يستخدمها من 
أجل فهرسة مجموعة الوثائق واستخدامها في البحث عن موضوعات البحث بناذج 
وآليّات بحث مختلفة لمحرك البحث الواحد. مهذا يمكن للباحث استخدام عملية تجميع 
النتائج بسهولة من أجل تحديد ما OS‏ ذا صلة بطريقة علمية سليمة ودون انحياز. 

بالنسبة لمجموعة الوثائق التي يمكن تجميعها وتجهيزهاء يمكن أن تكون: 

* صفحات ويكيبيديا: يمكن تحميل كل مقالات ويكيبيديا لأي من اللغات من 

على الموقع نفسه» ثم اختيار موضوعات البحث المناسبة لها وتحديد ما كان ذا 
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diis *‏ مجال معين أو في تخصصات مختلفة. يمكن أن تكون الكتب الإلكترونية 
في الأصل؛ ويمكن أن تكون من التي تم التعرف على محتواها آليّاه ولكن في هذه 
الحالة تكون طرق المعالجة ختلفة Cs‏ أسلفنا. 

* مقالات علمية أو أطروحات علمية (ماجستير ودكتوراه): يمكن أن تكون 
مجموعات الوثائق ذات طابع علمي في جال معين؛ ويتم اختيار موضوعات البحث 
$C;‏ على ذلك. ولكن في هذه ULT‏ ينبغي مراعاة أن من يقوم بتحديد ما كان ذا صلة 
على علم بهذا Jedi‏ أو على الأقل لديه بعض LABEM‏ عن المجال العلمي. 

* مقالات إخبارية: من نفس المصدر كمقالات إحدى الجرائد لأعوام متعددة 
أو من مصادر إخبارية مختلفة. يمكن أن تكون المقالات من مجال إخباري 
معين» كالرياضة أو السياسة أو الفنون أو غيرها. المهم في أي حالة هو اختيار 
موضوعات البحث الاختبارية بها يناسب طبيعة مجموعة الوثائق. 

t‏ جموعات من الصور أو المرقيّات: es‏ الطريقة الأسهل ف اختيار المجموعات 
التي تكون الصّوّرٌ أو المرئيّات فيها مصحوبةً بمُسمى أو شرح لمحتوى هذه 
الصور والمرئيّات» مثل الصور على موقع «فليكر Flickr‏ والمرئيّات على موقع 


. (Youtube «يوتيوب‎ 

-Y ,‏ استرجاع المعلومات من شبكات التواصل الاجتماعي 

كما أوضحنا مسبقاء فإن مجال البحث في هذا الموضوع مازال في إرهاصاته. وهناك 
الكثير من الأفكار التي يمكن تطويرها لخدمة استرجاع المعلومات من مواقع التواصل 
الاجتماعي وللُهجات الدّارجة بشكل عام. 

و يمكن للأفكار البحثية Xo AL‏ من دراسة هذا الموضوع أن تكون أطروحات 
ماجستير أو دكتوراه في coUe‏ مختلفة. 

ومن هذه الموضوعات: 


* بناء مجموعة اختبارية لاسترجاع المعلومات للمواقع الاجتماعية: ينبغي أن تُراعى 
بشدة الطبيعة الخاصة هذه البيانات في كيفية اختيار الموضوعات وكيفية كتابتها. 
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كما أن كيفية اختيار ما كان ذا صلة يتطلب جهدًا أكبر في معالحة البيانات لبناء 
محركات بحث مختلفة لتنفيذ عملية التجميع للنتائج أو بحث طرق أخرى من 
أجل تحديد ما كان ذا صلة من الوثائق (مشاركات المستخدمين في هذه الحالة). 

* محاولة استنتاج طريقة معرفة أساليب الكتابة المختلفة للموضوعات الاجتماعية 
وتشكيل طريقة تمنهجة لتوحيد طرق الكتابة التي من المتوقع أن تتعدى توحيدٌ 
بعض الحروف أو تجريد الكلمات؛ CS‏ يمكن تحديد مجموعة جديدة من الكلمات 
ERE VU OSEE T‏ 

* تصنيف المشاركات التي يتم البحث عنها بطرق مختلفة» مثل تصنيفها حسب 
الموضوع: سياسي» اجتماعي» ترفيهي ...» أو تصنيفها حسب حالة الكاتب: 
سعيد» حزين» غاضب ... وغيرها من التصنيفات. كل هذا يمكن أن يفيد 
y‏ في القدرة على استرجاع المعلومات. 

٠‏ تجميع المشاركات التي تتناول نفس الموضوع id GN‏ هذا مفيدًا للغاية كأحد 
الخصائص هذه الموقع الاجتماعية» حيث سيكون من المفيد للمستخدم أن يجد 
كل المشاركات التي تتحدث عن نفس الموضوع مجمعة تلقائيا. إن بناء نظام يقوم 
بهذا يمكن أن يكون أطروحة دكتوراه» ويمكن أيضًا عمل أطروحة ماجستير في 
تجهيز البيانات ومجموعة اختبار تساعد على بناء نظام كهذا. 

4 الصفحات الشخصية 

الصفحة الشخصية أو ما يعرف بالتدويناك الالكرونة (Blogs)‏ هى cobi‏ 

خاب spass‏ كدت قل هون | Sud, asia fe Locas‏ 
المستخدمة في هذه التّدوينات تلك التي تستخدم في الصفحة الاجتماعية» حيث يمكن 
أن ort‏ أشكالا عدلفة, يمكن أن تكرن إحدى أنكان اضر أو el Sal‏ ياء 

مجموعة اختبارية هذه الأشكال من الصفحات وتطوير طرق استرجاع فعالة ها. 


4 - استرجاع المعلومات عبر اللغات 
من أهم الموضوعات البحثية في علم استرجاع المعلومات. والهدف هو كتابة موضوع 
البحث بلغة ماء وتكون المعلومات والوثائق المسترجعة من لغة أخرى. 
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الأبحاث في هذا الموضوع بالنسبة للغة العربية محدودة جدًا وتركز على البحث بين 
اللغة العربية والإنجليزية. يمكن بناء cole gas‏ اختبارية لاختبار البحث عبر اللغات 
المختلفة مع اللغة العربية؛ ويمكن عمل هذا بشكل بسيط عند بناء أي ie pat‏ بحث 
عادية بالقيام بترجمة موضوعات البحث الاختبارية ترجمة يدوية إلى لغات أخرى لتكون 
مُعَدَةَ لاختبار البحث عبر اللغات؛ كا يمكن بناء مجموعات اختبار خصصة للبحث 
عبر اللخات» وهذا بالنسبة للمجموعات التي تحتوي على وثائق من لغات متعددة. 


-٠‏ من المواقع الإلكترونيّة التعليمية والإرشاديّة 


١‏ - حر كات بحث iole‏ لغرض البحث العلمى: 
e Indri, Lemur: http://www.lemurproject.org/‏ 
e Lucene: http://www.getopt.org/luke/‏ 
e Terrier: http://terrier.org/‏ 
٠ Solr: http://lucene.apache.org/solr/‏ 
-Y‏ قوائم بالكلمات المستبعدّة للغات متعددة: 
http://members.unine.ch/Jacques.savoy/clef/index.html‏ * 
Y‏ - أدوات تجريد الكلمة من السوابق واللواحق للغات مختلفة: 
e http://snowball.tartarus.org/‏ 
x‏ مواقع بحث لشبكات التواصل الاجتماعى: 
e http://www.tweetmogaz.com‏ 
http://www.topsy.com‏ * 


* http://bottlenose.com 
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الفصل الثاني 
الترجّمة ALIE‏ 


د. أحمد رافع 


١‏ - نظرة iale‏ موجزة. 
Y‏ تعريف بأهم المصطلحات المستخدّمة في الترجة الآلية. 

Teleki ol UII Re AI cou - Y 

-٤‏ البرامج والموارد اللغوية المرتبطة بالترجة الآلية. 

- أهم المواقع والأدوات المساعدة للموارد والتقنيات مفتوحة المصدر. 
1- أفكارٌ لتطوير مُدَوّنات IA)‏ مُستقبليّة لأهداف ie. JI‏ الآليّة 
ملحق - الأساس (e I‏ لبناء نظام ترجمة Qf‏ إحصائيٌ. 
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في عام £4 YA‏ بدأت أبحاث ia Il‏ من الرُوسية إلى الإنجليزية في أعقاب الحرب 
العالمية الثانية. وفي عام ١405‏ تم استحداث أول نموذج لنظام الترجمة الآلية من 
الروسية إلى الإأنجليزية. وبعد اثني عشر عاما من البحث صدرّ تقرير من اللجنة المشكلة 
من قبل الهيئات الحكومية المانحة لأبحاث الترحمة الآلية في الولايات المتحدة الأمريكية 
بعدم جدوى القيام بالأبحاث في هذا المجال. وقد كان أثر هذا التقرير سيئا على تقدم 
البحث والتطوير في مّيدان الترجة الآلية. لذلك اتجهت الأبحاث في السبعيئيّات من 
القرن الماضي إلى كندا وأوروبا الغربية. وني الثانينيّات بدأت تظهر تقنيات المنهج 
التحويلى وقواعد المعرفة؛ كما ظهرت تقنيات الترحة القائمة على أسس إحصائيّة في 
التسعينيّات. وقد استّخدِمت هذه التقنيات في الترجمة من العربية إلى الإنجليزية بكثرة 
في بداية الآلفية الثانية؛ وذلكٌ لاهتمام الولايات المتحدة بالترجمة من اللغة العربيّة بعد 
cole‏ سيتمير Yit Y‏ 
AiE‏ هذا البابٌ المفاهيم والمصطلحات الأساسية للترجمة الآلية» ويستعرض الطرق 
الرئيسة لها بصورة مبسطة مع إعطاء أمثلة توضح الفكرة العامة لكل طريقة. ويتكون 
UI‏ من سبعة أقسام على التّحو JI‏ 
79ب ا 
وهي: طريقة قائمة على قواعد لغوية» وطريقة قائمة على استخدام أمثلة لجمل 
مي ترجمتهاء وطريقة قائمة على أسس إحصائيّة باستخدام e$‏ كبير من 
النضوص المتّرحمة. 
-١‏ ويُعَرّفٌ القسم الثاني cal‏ المصطلحات المستخدمة في كل تقنية من تقنيات 
التَّرّجمة الآلية المشار إليها في القسم الأول. 
۳-أمًا القسم الثالث فيّلقي الصوءَ على تقنيات التَرجمة الآلية» وآخر cole gli‏ 
البحئيّة؛ Lo pras‏ المنهج القائم على مستوى ترجمة بناء هرمي للعبارة والمنهج 
القائم على مستوى ترجمة لغة المصدر إلى بناء نحوي للغة الهدف. كذلك يعنى 
باستخدام تقنية التعلم العميق للترجة الآليّة. 
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Car s f‏ القسم الرابع البرامج اللغوية المطلوبة لنظم ia A‏ الآلية القائمة على 
القواعد اللغوية ونظم in JI‏ الآلية القائمة على الأمثلة ونظم الترحة الآلية 
القائمة على أسس إحصائية. 

i-e‏ القسم الخامس فيستعرض أهم المواقع والأدوات المساعدة للموارد 
والتقنيات مفتوحة المصدر. 

٦-ويقترح‏ القسم السادس أفكارًا لتطوير $3 CoU‏ ثنائيّة RU‏ باستخدام المادة 
المترحمة امتاحة على شبكة الويب» مثل مواقع الأمم المتحدة. وكذلك إضافة 
قيمة للمدّوَّنات ثناتيّة اللّغة المتاحة لتحسين جودة نموذج الترجمة الناتج عن 
هذه المدّوّنات. 

١-وأخيرّاء AE‏ القسم السّابع ببليوجرافيا مرجعيّة» dent‏ على eget‏ من 
المراجع التي تعرض للمفاهيم والمصطلحات الرئيسة في الترجمة والترجمة 
الآلية» ولتاريخ الترجمة الآلية» وكيفيّة التعرّف على الاستعارات والتعبيرات 
المجازية وكيفية ترجمتها؛ بالإضافة إلى تقنيات التّرجمة الآلية» وآخر cole yi‏ 
البحزيّة» وبعض نظم الترجمة الآلية من وإلى اللغة العربية. 


$52 4 isle نظرة‎ - Y 
هة الآلية - عُمُومًا - إلى أربع طرق رئيسية: طريقة قائمة‎ UE يمكن تصنيف طرق‎ 
على قواعد لغوية» وطريقة قائمة على استخدام أمثلة لجمل سبق ترجمتهاء وطريقة قائمة‎ 
وطريقة قائمة على‎ ee A إحصائية باستخدام کم كبير من اض‎ epe على‎ 

استخدام تقنية التعلم العميق للترجمة الآلية. 

ويمكن تصنيف مناهج الترجة الآلية القائمة على القواعد إلى: المنهج المباشر والمنهج 
التحويلي» ومنهج اللغة الوسيطة. والفرق بين هذه المناهج هو مقدار التحليل اللغوي 
الذي يتم عمله على لغة المصدر وتحويل ناتج هذا التحليل إلى مفردات وقواعد اللغة 
المستهدفة ثم توليد لغة الهدف باستخدام قواعد الصَّرف وبناء لغة الهمدف. 
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a‏ مدن عا ا ل 
iu‏ مت incu auc‏ 
الاعتقاد بأن الناس تقوم بالتّرجمة عن طريق تحليل الجملة إلى عبارات ثم ترجمة هذه 
العبارات وتجميعها في جملة واحدة. 

يقة التَرّجمة القائمة على أسس إحصائية تستخدم فيها النماذج الإحصائيّة معلماتها 
مشتقة من تحليل كم كبير من النصوص - ثنائية اللغة وأحادية اللغة. وقد CAA‏ 
فكرة ia A‏ الآلية الإحصائيّة في عام ۱۹٤۹‏ م» عندما SS‏ بعض العلماء في استخدام 
نظرية المعلومات وفك الشفرة لكتابة برا ا 
ا۷ بإعادة النظر في فكرة استخدام الأساليب m AU Las MI‏ وشجعهم على 
ذلك الزيادة في قوة الحوسبة» وتوافر كم كبير من النصوص المترجمة» وعدم إحراز تقدم 
ملحوظ في وسائل التّرجمة الأخرى. وكانت طريقة الترحة القائمة على أسس إحصائيّة 
هي النموذج الأبرز للترجمة الآلية في تسعينيّات القرن العشرين والعقد الأول من القرن 
الخادى والعشرين لأسات عديدة متها دة الرجة وإمكانية تحسين الترجة dá‏ 
Jose‏ من الطرق الأخرى» وكذلك سرعة بناء برنامج ia AN‏ للات متعددة متى 
توافر كم كبير من النصوص المترجمة للغتين. 
في بدايات العقد الثاني من القرن الحادي والعشرين ظهرت تقنية استخدام التعلم 
العميق للترجمة الآلية؛ وقد أحرزت تقدمًا في استخدام الأساليب الإحصائيّة. 


؟- تعريف بأهم المصطلحات المستخدّمة في JI‏ جة الآلية 

هناك بعض المصطلحات المستخدمة في كل تقنية من تقنيات الترجة الآلية التي 
سبقت الإشارة إليها في القسم السابق (التقنية القائمة على قواعد لغوية» والتقنية القائمة 
على استخدام أمثلة الجمل سبق ترجمتهاء والتقنية القائمة على أسس إحصائِيّة باستخدام 
كم كبير من النصوص Ga AM‏ 
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V, Y‏ المصطلحات المستخدمة فى ia JUI‏ الآلية القائمة على القواعد اللغوية 
منهج is A‏ المباشرة :CApproach Direct)‏ 
منهج TU‏ حمة التحويل (Approach Transfer)‏ : 
ويعني تحليل جملة لغة المصدر ثم القيام بتحويل ناتج هذا التحليل إلى ما يقابله بلغة 
الهدف» وأخيرا توليد جملة لغة الهدف. 
منهج ال جمة باستخدام اللغة الوسيطة :CApproach Interlingua)‏ 
ويعني تحليل جملة لغة المصدر إلى لغة وسيطة تعتمد على مجال التَرجمة وتعبر بطريقة 
منضبطة عن المعاني التي تحتويها جملة لغة المصدر مما يسهل توليد الجملة الممثلة باللغة 
الوسيطة إلى أي لغة أخرى. 
قواعد اللغة الغير معتمدة على السياق (Grammar Free Context)‏ وتتكرَ ن من: 
٠‏ مجموعةمن الرموز النهائية؛ وتمثل مفردات اللغة (Terminals)‏ 
° مجموعةمن الرموز الغير Js cisle‏ الوحدات البنيوية للغة .(terminals- Non)‏ 
* مجموعة من القواعد التى تتكون من جانب أيمن وجانب أيسر. الجانب الأيمن 
ينوي على رمز غير iile‏ واحدء والجانب الأيسر يحتوي على مجموعة من 
الرموز الغير نبائية والرموز النهائية (Production Rules)‏ . 


(Starting Symbol) ابتدائى‎ le رمز غبر‎ * 

-Y , Y‏ المصطلحات المستخدمة في AI‏ مة الآلية القائمة على استخدام أمثلة 
مدونة ثنائية اللغة (Bilingual Corpus)‏ : 
هي مجموعة كبيرة من النصوص بلغتين» إحدى هاتين اللغتين يطلق 
عليها لغة المصدر والأخرى يطلق عليها لغة الهدف. مجموعة النصوص 
بلغة المدف هى ترجمة مجموعة النصوص بلغة المصدر دون أن تكون هناك 
محاذاة بين الجمل في مجموعتي النصوص. 
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مدونة ثنائية اللغة متوازية :(Parallel Bilingual Corpus)‏ 
هي مدونة ثنائية اللغة» كل جملة بلغة الهدف تشير إلى جملة مكافئة ها بلغة المصدر. 
برنامج التطابق :(Matching Module)‏ 
هو البرنامج الذي يحاول العثور على أكبر عبارة في الجملة المدخلة تتطابق 
مع الأمثلة الموجودة في نصف المدونة الثنائية المتوازية المكتوبة باللغة التي 
يراد ترجمتها. 
بر نامج التعرف :(Identification Module)‏ 
هو البرنامج الذي يحاول تحديد أفضل جزء يمكن اعتباره ترجمة للعبارة التي تم 
العثور عليها في الأمثلة الموجودة في المدونة الثنائية المتوازية في الجملة المقابلة ها. 
برنامج تجميع العبارات :(Assembling Module)‏ 
هو البرنامج الذي يحاول تجميع العبارات e AM‏ لتكوين أفضل جملة. 

Y‏ و" - المصطلحات المستخدمة في الت هة الآلية القائمة أسس إحصائيّة 
مدونة أحادية اللغة :(Mono Lingual Corpus)‏ 
مجموعة كبيرة من النصوص بلغة واحدة. 
0504 حاف :(Aligned Bilingual Corpus) RU Cus‏ 
هي مدونة ثنائية اللغة» كل كلمة في جملة بلغة الهدف تشير إلى كلمة أو أكثر 
في الجملة المكافئة لما بلغة المصدر. 
نموذج إحصائي للترجمة Statistical Translation Model)‏ 
مجموعة من co em VI‏ المشروطة لترجمة كلمة أو عبارة من لغة المصدر إذا 
أعطيت كلمة أو عبارة من لغة AM‏ 
نموذج إحصائي للغة «(Language Model)‏ 
مجموعة من الاحتالات المشروطة لظهور كلمة إذا ظهرت كلمة أو عدة 
كلات سابقة ها. 
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قواعد السياق الحر المتزامن (Synchronous Context Free Grammar)‏ : 
كل قاعدة من هذه القواعد تتكون من جانب أيمن يعبر عن مكون نحوي» 
وجانب أيسر يُمَّثل مجموعة من الكلمات أو المكونات النحوية الأقل تعقيدا 
من الجانب الأيمن بلغة المصدر والمكافئ لا بلغة الهدف. ويتم توليد هذه 
الكو E‏ اكه وقزازية PEE‏ 

برنامج فاك الشفرة :(Decoder)‏ 

برنامج يستخدم نموذجًا إحصائيًا للترجمة ونموذجًا إحصائيًا للغة الهدف 
ليولد لغة الهمدف من لغة المصدر. 

Word based) الإحصائى القائم على مستوى ترجمة الكلمة‎ ie AJ منهج‎ 
:(Statistical Machine Translation 

المشروطة فيه لترجمة كلمة من لغة المصدر إذا أعطيت كلمة من لغة الهدف. 
منهج ia I‏ الإحصائي القائم على مستوى ترجمة العبارة Phrase Based)‏ 
(Statistical Machine Translation‏ : 

المشروطة فيه لترجمة عبارة من لغة المصدر إذا أعطيت عبارة من لغة الهدف. 
منهج ie JE‏ الإحصائي القائم على مستوى بناء هرمي للعبارة 
:(Hierarchical Based Statistical Machine Translation)‏ 
قواغد السباق الك المارامن: 

منهج الترجمة الإحصائي القائم على مستوى ترجمة لغة المصدر إلى بناء نحوي 
للغة المدف (Syntax Based Statistical Machine Translation)‏ 
هو المنهج الذي يستخدم نموذجًا إحصائيًا للترجمة مكوّنًا من قواعد تربط 
بين الكلمات والعبارات والجمل من لغة المصدر مع الأشجار البنائية الناتجة 
عن التحليل اللغوي للجمل على جانب لغة الهدف. 


6ت 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١ ©2111‏ 


؟,؛ - المصطلحات المستخدمة في SII I‏ القائمة على التعلم العميق 
خلية عصبية (Neuron)‏ 
هي وحدة حاسوبية ها عدد من المدخلات ومخرج واحدء قيمته هي دالة في 
قيم مدخلاته. 
شبكة عصبية (Neural Network)‏ 
هى مجموعة من الخلايا العصبية» مرتبة في طبقات» لما عدد من المدخلات 
منهج EU‏ جمة باستخدام الشبكة العصبية (Translation Machine Neural)‏ 
هو المنهج الذي يستخدم شبكة عصبية في الترجمة. 


Machine Translation using) gs) باستخدام التعلم‎ ie JI 


(Deep Learning 
هو المنهج الذي يستخدم شبكة عصبية ذات طبقات متعددة» ويستخدم‎ 
أحيانًا مصطلح التُرجمة باستخدام الشبكة العصبية للدلالة على نفس المنهج.‎ 
(Word Vector Rpresentation)«2- تمثيل الكلمة في‎ 

هي طريقة لتمثيل الكلمة في e‏ رياضي عن طريق السّياق الذي تظهر فيه 
الكلمة. 

(Model Sequence Word) نموذج تسلسل الكلمات‎ 

في سياق الترجمة الآلية؛ هو تذكر تسلسل مجموعة من الكلمات في لغة مع 
ترجتها إلى تسلسل من الكلمات في لغة أخرى. 

(Recurrent Neural Network)iJUzs imas شبكة‎ 

عن شبكة اة مق الوخداكة تشعمل كل وخا le‏ عل غاد عد 
من الخلايا العصبية. ويكون لكل وحدة عدد من المدخلات وعدد من 
المخرجات. ونّضافٌ خر جات كل وحدة إلى مدخلات الوحدة التي تليها. 
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se I coge تقنيات الَرجة الآلية» وآخر‎ -Y 


V, Y‏ - التّرحمة الآلية القائمة على القواعد اللغوية 
الأقسام الفرعية التالية تصف ثلاثة مناهج لاستخدام القواعد اللغوية في A AI‏ 
المنهج الأول هو ما يطلق عليه منهج الترجمة c AU‏ والمنهج الثاني هو ما يطلق عليه 
الترجمة باستخدام القواعد التحويلية» أما المنهج الثالث فهو ما يطلق عليه X I‏ من 
خلال تحويل جمل لغة المصدر إلى لغة وسيطة. والشكل )١-1(‏ يوضح الفروق بين 
المناهج الثلاثة من خلال رسم تخطيطي. 
* منهج التَّرّجمة المباشر 
منهج الترجة المباشر يقوم أساسا على استبدال كلمة مقابل كلمة بين زوج من 
اللغات باستخدام قاموس ثنائي اللغة واستخراج مقابلها من اللغة المستهدفة. 
وعيوب هذا النظام عدم قدرته على تحليل البنية النحوية أو العلاقات الدلالات 
في جمل الإدخال ما يسفر عن قلة جودة الترجمة. كا أن بناء القاموس ثنائي اللغة 
يجب أن يحتوي على كم كبير من الكلمات بكل تصريفاتها باللغتين» وذلك لكل 
زوج من اللغات؛ وبناء هذه القواميس مكلف للغاية. 


اللّغة الوسيطة 


فلل لاا توليد َة ادف 
J 2‏ 


a aai sai‏ بلّغة المصدّر 


الشّكل :١-۲‏ مناهج AII‏ جة القائمة على القواعد اللغوية. 
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ie leg *‏ باستخدام القواعد التحويلية 
منهج الرجمة باستخدام القواعد التحويلية يمثل حلاً وسطا بين منهج التّرجمة 
المباشر ومنهج الترجمة من خلال تحويل جمل لغة المصدر إلى لغة وسيطة. هذا 
المنهج يعمل على ثلاث مراحل: تحليل جمل لغة المصدر لغويا: صرفيا أو نحويا 
أو دلالياء ثم تحويل ناتج التحليل إلى مقابل له في لغة الهدف» وبعد ذلك يتم 
توليد جمل لغة ا دف المكافئة باستخدام قواعد الصرف والنحو للغة المستهدفة. 
هذا المنهج يتكون من ثلاثة مكونات. المكون الأول خاص بلغة المصدر ويحتوي 
على قاموس للغة المصدر ومحللات صرفية ونحوية ودلالية لهاء والمكون الثاني 
يحتوي على قاموس ثنائي اللغة وقواعد تحويلية تربط بين الوحدات المعجمية 
oa fas ticas‏ الماك E Max La‏ 
الثالث فيحتوي على قاموس للغة الهمدف ومولدات صرفية ونحوية ودلالية ها. 
عيب هذا المنهج أنه يجب إعادة كتابة المكون الثاني لكل زوج من اللغات مما 
يحتاج إلى تكلفة كبيرة؛ وهناك عيب آخر يتمثل في أن معالجة الالتباس اللغوي 
الذي يتم على لغة المصدر لا حمق التّتائج المنشودة - حتى في أفضل وضع وهو 
القيام بكل التحليلات الممكنة وصولا إلى التحليل الدلالي» حيث إن es‏ من 
أنواع الالتباس لا يمكن حلها إلا من خلال السياق الذي ذكرت فيه الجمل 
المطلوب ترجمتهاء وكذلك المعرفة عن العالم التي يصعب تمثيلها ومعالجتها آليا. 
e‏ منهج t AE‏ القائم على اللغة الوسيطة 
منهج الترجة القائم على اللغة الوسيطة (إنترلينجو). ويتألف نظام إنترلينجو 
من مكونين: المكون الأول هو الذي يحلل النص المكتوب بلغة المصدر ويحوله 
إلى تمثيل مقابل بلغة مستقلة مجردة» وهي ما نطلق عليها اللغة الوسيطة. 
E 0-9‏ 
اله s JE‏ هذا eui‏ يرنه اتسال ين الكون MI‏ الذي e‏ 
بتحليل النص الأصلي والمكون الآخر الذي يقوم بتوليد النص الأصلي بلغة 
أخرى؛ وعلى الرغم من مزايا هذا المنهج الذي يقدم حلولا لأغلب المشكلات 
التي يعاني منها المنهج القائم على القواعد التحويلية إلا أنه لم يستخدم على نطاق 
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e‏ لسببين» أحدهما: صعوبة تعريف لغة محايدة وسيطة بين لغات متباينة» 
والآخرٌ: صعوبة أن تكون هذه اللغة خالية من أي التباس وقادرة على تمثيل أي 
محتوى لنص مكتوب بلغة طبيعية. 
Le‏ تقدم نستطيع أن نقولّ إن منهج ia E‏ القائم على القواعد التحويلية هو المنهج 
الأكثر استخداما بين المناهج القائمة على القواعد اللغوية» حيث إن هذا المنهج يقدم 
حلا وسطا بين منهج Ae AUI‏ المباشرء والذي يعاني من سوء جودة الترجمة مع بساطته 
التقنية» ومنهج الترحة القائم على اللغة الوسيطة» والذي يتميز بالقدرة على التعامل 
مع أزواج كثيرة من اللغات مع صعوبة تعريف لغة وسيطة تستوعب كل الصور التي 
يمكن التعبير عنها باللغات الطبيعية. 


-YY‏ طريقة Ros JE‏ الآلية القائمة على استخدام أمثلة 

تتميز الطريقة القائمة على استخدام الأمثلة للترجمة الآلية beb‏ تستخدم مدونة ثنائية 
اللغة متوازية» وتمثل هذه المدونة قاعدة معرفية لبرنامج ies JE‏ الفكرة الأساسية لهذه 
الطريقة هي الترجمة من خلال التهاثل في التكوين الظاهري للجملة» وليس من خلال 
القيام بتحليل لغوي عميق E.‏ ومرجع هذه الفكرة هو الاعتقاد ob‏ الناس تقوم أولا 
بتحليل الجملة إلى عبارات ثم تقوم بترجمة هذه العبارات» وأخيرا OSE‏ الجملة بشكل 
صحيح من العبارات المترجمة. 

وتترجم العبارات عن طريق التطابق مع عبارات سبق ترجمتها موجودة في مجموعة 
النصوص المترجمة المتوازية. ويتكون نظام التّرجمة القائم على استخدام أمثلة من الأجزاء 
التالية: 

° برنامج التطابق الذي يحاول العثور على أكبر عبارة في الجملة المدخلة تتطابق مع 
الأمثلة الموجودة في نصف المدونة ثنائية اللغة المتوازية المكتوبة بنفس لغة الجملة 
المدخلة» أي التى يراد ترحمتها. 

؟ برنامج التعرف الذي يحاول تحديد أفضل جزء يمكن اعتباره ترجمة للعبارة التي تم 
العثور عليها في الجملة الموجودة في النصوص المترجمة المتوازية في الجملة المقابلة ها. 

° برنامج تجميع العبارات المترجمة لتكوين أفضل جملة. 
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Y Y‏ - طريقة Ao JE‏ الآلية القائمة على أسس إحصائة 

هذه الطريقة الإحصائِيّة تقوم على بناء نموذج إحصائي للترجمة ونموذج إحصائي 
للغة» ليستخدما بعد بنائه| بواسطة برنامج لتوليد لغة الهدف من لغة المصدر؛ وهذا 
البرنامج يطلق عليه «برنامج فاك الشفرة». وهذا الاسم قد تم إطلاقه على هذا البرنامج 
لأسباب تاريخية» إذ إنه في بداية الأبحاث في ie DI‏ الآلية كان يُنظر إليها على أن جملة 
لغة الهدف تم تشفيرها إلى لغة المصدر وأن المترجم الآلي هو الذي يقوم بفك جملة المصدر 
المشفرة إلى جملة المدف. والاختلاف بين مناهج الترجمة على أسس إحصائيّة قائم على 
طريقة بناء نموذج التُرجمة الإحصائيء ومن ثم على كتابة البرنامج المناسب لاستخدام 
هذا النموذج لبرنامج فاك الشفرة. 

وسنعرض في هذا القسم لمناهج do JUI‏ القائمة على أسس إحصائيةء ee agli‏ 
في: المنهج القائم على مستوى ترجمة SUI‏ والمنهج القائم على مستوى ترجمة العبارة» 
والمنهج القائم على مستوى ترجمة بناء هرمي للعبارة» والمنهج القائم على مستوى ترجمة 
لغة المصدر إلى بناء نحوي للغة الهدف. 


* المنهج القائم على مستوى ترجمة الكلمة 
في النماذج القائمة على ترجمة كلمة» يكون نموذج الترجمة عبارة عن مجموعة 
من الاحتمالات لترجمة كلمات من لغة المصدر إلى كلمات من لغة الهدف. ويتم 
تقدير هذه الاحتمالات من مدونة ثنائية متحاذية. هناك خسة ناذج أساسية 
لتقدير ترحمة كل كلمة من لغة الحدف إلى أكثر من كلمة في لغة المصدر؛ وهذه 
الناذج الخمسة تم اقتراحها من ES‏ مركز أبحاث IBM‏ في بداية التسعينيّات 
من القرن الماضي. تعتمد هذه النماذج على فرض أن كل كلمة في ila‏ في لغة 
الهدف قد يكون مصدرها أي كلمة في جملة لغة المصدر الموازية لهاء حيث يتم 
توليد جميع التباديل للكلمات في كل جملتين في المدونة المتحاذية» وكل تبديل من 
هذه التباديل يعطى احتمالا متساويًا في البداية. 
وباستخدام هذه التباديل يتم حساب احتمالات ترجمة كل كلمة من كلمات لغة 
الهدف إلى ما يقابلها من كلمات في لغة المصدر؛ وبناء على هذه الاحتمالات يعاد حساب 
احتمالات التباديل المختلفة لكل جملة حتى يتم الوصول إلى أفضل تقابل بين كل كلمة 


NA 
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في حملة لغة الهمدف والكلمة أو الكلمات المقابلة لها في الجملة المحاذية من لغة المصدر لكل 
الجمل في المدونة. الشكل (Y-Y)‏ يوضح مثالاً لجملتين متوازيتين بعد تحديد التقابل بين 
الكلات ف og‏ 
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الشّكل Y- Y‏ مثال لجملة تم تحديد تقابل الكلمات بها. 

(يحتوي ملحق هذا الباب على تفصيل أكثر حول طريقة بناء هذا النموذج 
الإحصائي). 

والمشكلة الأساسيّة في eic‏ القائمة على ترجمة كلمة أنها لا تستخدم أي كلمات 
سابقة أو لاحقة لتقدير احتمال الترجمة» وفي بعض الأحيان يكون من المفيد أن تكون 
وحدة الترجمة أكثر من كلمة لإنتاج ترجمة جيدة. فعلى سبيل المثال» إذا أردنا ترجمة 
«وزير صيني» إلى اللغة الإنجليزية - مع افتراض أنه قد تم تحديد أن كلمة «وزير» 
معناها (Minister)‏ وأن كلمة «صينى» معناها «(Chinese)‏ فإن الترجمة سوف تكون 
(Minster Chinese)‏ وهذه Gl (oii: dos‏ إذا كانت وحدة ie iJ‏ مكونة من 
كلمتين وتم تحديد ترجمة هذه الوحدة» فإننا سوف نحصل على iz All‏ الصحيحة. 


دولا 
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* المنهج القائم على مستوى ترجمة العبارة 
تم اقتراح هذا المنهج للتغلب على المشكلات الناتجة عن المنهج القائم على 
مستوى ترجمة الكلمة. وحدة الترجمة في هذا المنهج هي مجموعة من الكلمات 
المتلاصقة. هذه المجموعة من الكلمات المتلاصقة - والتي سوف نطلق عليها 
عبارة لا تمثل أيّ مكون لغوي - ليست سوى سلاسل من الكلمات المختارة 
وفقا لمحاذاة كل كلمة في جملة المصدر لمقابلها في جملة الهدف. فعلى سبيل المثال» 
يمكن توليد العبارات المكونة من كلمتين وترجمتها من المصفوفة الموضحة في 
الشكل (Y-Y)‏ کا في الجدول (A-Y)‏ 


العبارة العربية AI‏ جة الإنجليزية 
وزير صيني Chinese minister‏ 
برازيلٍ يفوزان Brazilian win‏ 
الأمم المتحدة UN‏ 


الجدول 1-7 : العبارات المتقابلة التي يمكن توليدها من المصفوفة الموضحة في الشّكل رقم QUO‏ 
ومن خلال المدونة اللغوية المتوازية - والتي تم مقابلة كل كلمة في جلها المكتوبة بلغة 

الهدف إلى الكلمة المقابلة لها بلغة المصدر - يتم حساب احتمالات ترجمة كل العبارات 

بأطواها المختلفة: الأحادية» الثنائية» الثلاثية» ... إلخ من لغة الهدف إلى لغة المصدر. 


« المنهج القائم على مستوى ترجمة بناء هرمي للعبارة 
يقوم هذا المنهج على استخدام قواعد السياق ا حر المتزامن؛ وكل قاعدة من هذه 
القواعد تتكون من جانب أيمن يعبر عن مكون نحوي» وجانب أيسر يُمَثل 
مجموعة من الكلمات أو المكونات التحوية الأقل تعقيدا من الجانب الأيمن بلغة 
المصدر والمكافيع لها بلغة ال هدف. فعلى سبيل المثال يمكن تمثيل العبارات المتقابلة 
الموضحة في الجدول (۱-۲) في قواعد سياق حر متزامن كما يلي: 
Chinese minister‏ ,وزير صيني> > X‏ )( 
Brazilian win‏ ,برازیلي يفوزان > > (Y) X‏ 
UN»‏ ,المتحدة الأمم > جد كر (Y)‏ 


الاب 
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من هذه القواعد» ومن الجملتين السابق استخدامه) في الشكل OY)‏ يمكن توليد 
القاعدة التالية: 
X, XJ, A X, and a X, X, environmental prize >‏ بجائزة×و الآ > جاخ (f)‏ 
برنامج فاك الشفرة لهذا النموذج: 
(o) SxS,X,S,X,-»‏ 
C0 S><X X, >‏ 


تتم عملية فك الشفرة من خلال البدء بالرمز الابتدائي للقواعد الحرة المتزامنة والحملة 

المراد ترجتها ثم محاولة تطبيق القواعد الأخرى للحصول على ترجمة الجملة المطلوبة. وفيا 
بلي خطوات تطبيق القواعد لترجمة الجملة العربية في Dell‏ المستخدم لتوضيح الفكرة: 

S>>X ,X > 

><X, $ X, بجائزة‎ X, * XA X, and a X, X, environmental prize > 

>< وزير صينى و‎ X, بجائزة‎ X, للبيئة»‎ A Chinese minister and a X, X, environmental prize > 

> > بجائزة‎ 05 go وزير صينيو برازيل‎ X4) A Chinese minister and a Brazilian win X, environmental prize > 

2 > وزير صينيو بر ازيل يفوزان بجائرة التحدة الأمم للبيئة‎ A Chinese minister and a Brazilian win UN environmental prize > 

باختصار OB‏ البرنامج المقترح لفك الشفرة هو برنامج بحث ذكي لاختيار أفضل 

القواعد التي يجب تطبيقها لترحمة جملة بلغة المصدر إلى ila‏ بلغة الهدف» حيث إنه في 

الواقع يكون هناك أكثر من ترجمة لحملة بلغة المصدر. 


* المنهج القائم على مستوى ترجمة لغة المصدر إلى بناء نحوي للغة المدف 
تقوم فكرة هذا المنهج على التحليل النّحوي للجمل على جانب لغة ال دف في 
المدونة ثنائية اللغة» ومحاذاة الكلمات من كلا الجانبين» ثم تعلم قواعد ترجمة تربط 
بين الكلمات والعبارات والجمل من لغة المصدر مع الأشجار البنائية الناتجة 
عن التحليل اللغوي للجمل على جانب لغة ال هدف. هذه المجموعة من قواعد 
i A‏ تعتبر نموذج الترجة للمنهج القائم على مستوى ترجمة لغة المصدر إلى 
بناء نحوي للغة الهدف؛ ويستند برنامج فاك الشفرة في هذا المنهج إلى بناء شجرة 


-NY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


التحليل البنيوي لجملة ilad ce Bad‏ مدخلة بلغة المصدرء باستخدام نموذج 
الترجمة الذي تم بناؤه» ثم تحويلها إلى البناء الظاهري للغة ا هدف. لتوضيح 


هذه الفكرة سوف نعطي مثالا لبناء نموذج الترجمة من الإنجليزية إلى العربية. 
الشكل (Y-Y)‏ يصف مخطط محاذاة للجملة (مع ملاحظة أننا قمنا بكتابة اللغة 
الإنجليزية من اليمين إلى اليسار حتى يمكن رسم خطوط المحاذاة بصورة 


أفضل مما يمكن القارئ من متابعتها): 


(A Chinese minister wins United Nations environmental prize) 


وترجمتها إلى اللغة العربية: «وزير صيني يفوز بجائزة الأمم المتحدة 5.3( 


(A Chinese minster)‏ تركيب اسمي 


تركيب ف 
NS‏ — 
Pt M‏ 
(A Chinese minster)‏ تر ركيب وصفي (wins)‏ فعل () حر à‏ جر (United Nations environmental prize)‏ تر ركيب اسمي 


| \ 0 لم 


E | | 

E 

(environmental) تركيب اضافي جار ومجرذر‎ (United Nation prize) | 
v | | 


(A minster)‏ او 
| أ 531 ^ 
A No xo 3‏ 
"o d A‏ / 
(prize)‏ اسم ركيب وصفي (United Nations)‏ )( حرف — (environmental) e-‏ 
| | 1 | | 


A 
| 
| l 
|! 


\ | 
l | | À‏ 
\ أ \ (Nations)‏ امم صغة (United)‏ | 
A \ | \‏ | 
À‏ | | / / / | | 
1 ا / / | 
الأمم المتحدة ل البيئة 


(Chinese) Ai. 


أ 
l‏ | 

| 
| 


l 
| 
| 
| 


وزير صيني يفوز ب __ جالزة الام 

~ 1 —K— سے‎ 
i ai —À e -— | X 

prize environmental Nations United 


wins minister Chinese À 


الشكل 7-: مخطط محاذاة لجملة إنجليزية والشجرة البنيوية لتر جتها العربية. 
من هذا المخطط الموضح في الشكل رقم (Y-Y)‏ يمكن استخراج قواعد e JI‏ 
لعبارات باللغة الإنجليزية إلى شجرة بنيوية باللغة العربية كا في الشكل رقم .)٤-۲(‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
خخخ SS‏ 


العبارة المدخلة: Minister Chinese A‏ العبارة المدخلة: Nation United‏ 
الشجَرة المخرّجة: تركيب وصِفِيّ E‏ المخرّجة: تركيب وصفِيّ 


Que 005‏ الأمم المتحدة 


T (b 


العبارة المدحلة: wins‏ تر كيب اسمىٌ العبارة المدخلة: تركيب وَصِفىٌ 
prize environmental :‏ 1 


الشجّرة المج هن E‏ المخرّجة: تركيب اسميّ 


og 0‏ ام 2 تركيب QUA‏ جار ومجرور 
qe‏ حرف جر تركيب اسمي 000 1 
ا Sess‏ لد اله 
جائزة 
)3( 
العبارة المدخلة: تركيب اسميّ - (e$‏ العبارة المدخلة: تركيب وصفِيّ 
i dé ess si‏ المخرّجة: تركيب اسمي 
ارپ اسي تركيب وصفي 


(a) di تركيب‎ 
(9) 


الشّكل ٠-۲‏ : بعض القوعد المستخلصة من المخطط الموضح في الشكل .)١-۲(‏ 

ويمكن تقسيم القواعد المستخلصة في الشكل (5-7) إلى ثلاث أنواع: 

* قواعد خاصة. مثل القاعدتين )3 (ب)» حيث إن مدخلات كل منهما cus‏ 
باللغة الإنجليزية ومخرجات كل منهم| شجرة بنيوية باللغة العربية. أوراق هذه 
الشجرة ترجمة العبارة المدخلة باللغة العربية مرتبة ترتيبا نحويا صحيحا. 

. قواعد عامة» مثل القاعدتين (a)‏ و (و)» حيث إن مدخلات كل ke‏ رمز 
أو رموز غير ile‏ ومخرجات كل منهما شجرة بنيوية باللغة العربية تربط 
المدخلات في شجرة واحدة. 


-5/ا - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


, قواعد شبه عامة مثل القاعدتين (ج) و (د)» حيث إن مدخلات كل ego‏ رمز 
أو رموز غير iile‏ مع رموز نهائية» ومخرجات كل منهما شجرة بنيوية باللغة 
العربية تربط المدخلات في شجرة واحدة. 

ولتوضيح فكرة عمل برنامج فاك الشفرة لهذا المنهج» سنحاول أن نتتبّع خطوات 

ترجمة JEL‏ المستخدم لتوليد هذه القواعد على JÕI secl‏ 

* يتم قراءة الجملة المدخلة كلمة كلمة حتى يمكن اختيار قاعدة تكون مدخلاتها 
الكلمات المقروءة. الكلمات المقروءة في هذا المثال - والتي تتطابق مع مدخلات 
القاعدة (D‏ الموضحة في الشكل C£-Y)‏ - هى: «Minister Chinese A»‏ 
والتي تولد التركيب الوصفي المكون من الكلمتين «وزير صيني». 

٠‏ يتم تكرار الخطوة الأولى حتى يتم الانتهاء من تطبيق القواعد الخاصة. في حالة 
هذا المثال.. فإن القاعدة (ب) هي التي سوف تطبق ويتم توليد تركيب وصفي 
آخر مكون من الكلمتين «الأمم المتحدة». 


* القاعدة (د) يمكن تطبيقها الآن والتى تغطى التركيب الوصفى United)‏ 
«(Nations‏ والتي يتبعها «(Prize Environmental)‏ وسوف c‏ عن هذا 
التطبيق توليد الشجرة الموجودة في هذه القاعدة بعد تركيب الشجرة الفرعية 
للتركيب الوصفي» كا هو موضح في الشكل رقم (0-1). 


الشّكل o Y‏ الشجرة البنيوية للعبارة «جائزة الأمم المتحدة». 


-ه/ا _- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
.2 83 ييا 


9 القاعدة (ج) يمكن تطبيقها بعد تكوين التركيب الاسمي في الخطوة رقم )3(« 
والتي تولد الشجرة البنيوية للعبارة «يفوز بجائزة الأمم المتحدة للبيئة)» وهي 

* القاعدة (ه) هي الوحيدة التي يمكن تطبيقها في هذا الموقف. والتي تحوّل 
التركيب الوصفي «وزير صيني» إلى تركيب اسمي. 

* تم الآن تكوين تركيب اسمي يتبعه تركيب فعلي» ومن ثم يمكن تكوين الشجرة 
البنيوية للجملة باستخدام القاعدة (و). ويمكن لبرنامج فاك الشفرة أن يولد 
جملة الهدف باللغة العربية مرتبة ترتيبًا نحويًا صحيحًا. 


٤,۴‏ - طريقة التّرّحمة الآلية القائمة على التعلم العميق 

طريقة الترجمة الآلية القائمة على التعلم العميق أبسط من طرق الترجمة القائمة على 
النموذج الإحصائي؛ ذلك T‏ لا يوجد نموذج لغوي منفصل» ولا نموذج ia AU‏ ولا 
نموذج فاك للشفرة. هذه الطريقة تعتمد على تعليم شبكة عصبية متتالية بوضع جمل لغة 
المصدر كمدخلات هذه الشبكة ووضع ترجمة هذه الجمل بلغة الهدف كمخرجات U‏ 
وتحتاج عملية التعلم هذه إلى قوة حاسوبية عالية. وحال القدرة على تعليم هذه الشبكة 
العصبية» يتم استخدامها في ترجمة أي جمل أخرى من لغة المصدر. 


4 - البرامج والموارد اللغوية المرتبطة ia AU‏ الآلية 


١ £‏ - البرامج اللغوية المطلوبة لنظم JI‏ الآلية القائمة على القواعد اللغوية 

تحتاج مناهج ia A‏ القائمة على القواعد اللغوية إلى برامج على جانب لغة المصدر 
للقيام بالتحليل الصرفي والتحليل النحوي والتحليل الدلالي وتوليد اللغة الوسيطة؛ كا 
تحتاج على جانب لغة الحدف إلى برامج للقيام بتحويل الجملة الممثلة باللغة الوسيطة إلى 
hië‏ دلالي» وتحويل التمثيل الدلالي إلى ثيل نحوي» وتحويل التمثيل النحوي إلى جذوع 
مزيدة بخصائصها الصرفية» وتركيب هذه الجذوع مع خصائصها الصرفية لتكوين 
الكلمات في صورتها النهائية. وني حالة منهج Ae Jb‏ باستخدام القواعد التحويلية 


-V1 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


لغة المصدر. وفي أغلب الأحيان يتم تحليل النص المكتوب بلغة المصدر نحويا ويتم تمثيل 
ناتج التحليل في شجرة بنائية. وفي هذه الحالة يتم كتابة برنامج لتحويل هذه الشجرة 
البنائية التى تمثل الجملة المراد ترحمتها إلى شجرة مكافئة بلغة الهمدف. والجدول (Y-Y)‏ 
بلخص العلاقة بين مناهح A‏ نة القائمة عل القواعد اللغوية والبرامج المطلربة. 


5 3 

$ 5 3 

4 5 | 3 3 3 3, 0 3 

EEEE EE 

x EMEN 

xix X x [ae | باستحدام‎ nip eo 
القواعد التحويلية‎ 

«#2 حيو ا عو اعد العو ا‎ | E ne 
عل اللغة الوسيطة‎ 


الجدول Y-Y‏ العلاقة بين مناهج ia A‏ القائمة على القواعد اللغوية والبرامج المطلوبة لتنفيذ هذه المناهج 
-Y , £‏ البرامج اللغوية المطلوبة لنظم ia A‏ الآلية القائمة على الأمثلة 
البرامج الأساسية الترجة الآلية القائمة على الأمثلة هي: 


* برنامج التطابق الذي يحاول العثور على أكبر عبارة في الجملة المدخلة تتطابق 
مع الأمثلة الموجودة في نصف المدونة الثنائية المتوازية المكتوبة باللغة التي يراد 
ترجمتها. 

* برنامج التعرف الذي يحاول تحديد أفضل جزء يمكن اعتباره ترجمة للعبارة التي 
تم العثور عليها في الجملة الموجودة في النصوص e AM‏ المتوازية في الجملة 
المقابلة . 


° برنامج تجميع العبارات المترجمة لتكوين أفضل جملة. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mS 0:‏ 


التعرف. 
£ “- البرامج اللغوية المطلوبة لنظم os JI‏ الآلية القائمة على أسس إحصائية 
البرامج الأساسية للترجمة الآلية القائمة على أسس إحصائيّة هي: 
* برنامج محاذاة الكلمات. 
* برنامج بناء نموذج ترجمة العبارة. 
* برنامج توليد قواعد لغوية متحررة من السياق ومتزامنة. 
* برنامج توليد قواعد ترجمة. 
* برنامج فاك الشفرة الخاص بالنظام القائم على مستوى ترجمة الكلمة. 
* برنامج فاك الشفرة الخاص بالنظام القائم على مستوى ترجمة العبارة. 
* برنامج فاك الشفرة الخاص بالنظام القائم على مستوى بناء هرمي للعبارة. 


* برنامج فاك الشفرة الخاص بالنظام القائم على مستوى ترجمة لغة المصدر إلى بناء 
نحوي للغة الهمدف. 


الجدول (T-Y)‏ يوضح العلاقة بين مناهج ia AE‏ القائمة على أسس إحصائيّة 
والبرامج المطلوبة لتنفيذ هذه المناهج. 


m7 — 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


Y 
5 ¢ 2a 
3 1 اه ا‎ b د‎ 
y . R 3%. : 
i: 3 3 33 E 3 
x 3 3 39| | 5 
CES a EE AE 
j| ^ RI3 
: ; m3 | 
D 
nl eMe المنهج القائم على‎ 
gels avr المنهج القائم على‎ 
العبارة ترجمة العبارة‎ 
pos nr المنهج القائم على‎ 
هرمي للعبارة ترجة ة بناء هرمي للعبارة‎ 
oh المنهج القائم على برنامج فاك الشفرة‎ 
x | ہر | بالنظام القائم على مستوى‎ x | مستوى ترجمة لغة‎ 
المصدر إلى بناء ترجمة لغة المصدر إلى بناء‎ 
نحوي للغة المدف نحوي للغة المدف‎ 


الحدول ۲ Y-‏ العلاقة بين مناهج UI JI‏ على أسس إحصائيّة والبرامج ج المطلوبة لتنفيذ هذه المناهج 


ه- أهم المواقع والأدوات المساعدة للموارد والتقنيات مفتوحة المصدر 
معظم البرامج والموارد اللغوية لنظم ia AI‏ الآلية القائمة على القواعد اللغوية 
ليست متاحة للجمهور؛ إلا أن هناك بعض الشركات العاملة في مجال تقنيات اللغة 
العربية تمتلك محللات صرفية ومعاجمٌ للغة العربية. كا تضمنت بعض الأطروحات 
في الجامعات قواعد نحوية مزيدة بملامح دلالية وقواعد لتوليد اللغة من لغة وسيطة؛ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ڇځخځ O‏ ييا 


والمراجع في ile‏ الكتاب تحتوي على هذه الأطروحات . ولكن هذه البرامج والموارد 

التي تم تطويرها ليست متاحة للجمهور أيضا. GT‏ بالنسبة للترجمة الآلية القائمة على 

أسس La]‏ فلا توجد الكثير من الموارد المتاحة للجمهور بدون مقابل. إلا أن 

مؤسّسة LDC‏ في جامعة بنسلفانيا بالولايات المتحدة الأمريكية تتيح بعض مواردها 

بدون مقابل للمتنافسين في المسابقة التي يجريها المعهد القومي للمعايرة والتقنية 

بالولايات المتحدة الأمريكية. وفيا يلي قائمة بالموارد التي تمت إتاحتها للمتنافسين في 

السابقة التي أجراها gall‏ القومي للمعايرة والتقنية عام ٠ ٠۹‏ عل ia l‏ الآلية من 
العربية إلى الإنجليزية: 

1- LDC2007T40 Arabic Gigaword Third Edition. 

2- LDC2004T18 Arabic English Parallel News Part 1. 

3- LDC2004T17 Arabic News Translation Text Part 1. 

4- LDC2005E46 Arabic Treebank English Transla-tion. 


5- LDC2005T02 Arabic Treebank: Part 1 v 3.0 (POS with full vocali- 
zation + syntactic analysis). 


6- LDC2004T02 Arabic Treebank: Part 2 v 2.0. 


7- LDC2005T20 Arabic Treebank: Part 3 (full corpus) v2.0 (MPG + 
Syntactic Analysis). 


8- LDC2004L02 Buckwalter Arabic Morphological Analyzer. 
.9- LDC2007T07 English Gigaword Third Edition. 

10- LDC2004E72 eTIRR Arabic English News Text. 

11- LDC2003T18 Multiple-Translation Arabic (MTA) Part 1. 
12- LDC2005T05 Multiple-Translation Arabic (MTA) Part 2. 
13- LDC2006E44 TIDES MT 2004 Arabic evaluation data. 
14- LDC2006E39 TIDES MT 2005 Arabic evaluation data. 
15- LDC2004E13 UN Arabic English Parallel Text. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
١١١١ ©2131‏ 


أما البرامج والأدوات التي ُستخدم على نطاق واسع من الباحثين المهتمين Re JU‏ 
الآلية القائمة على أسس إحصائيّة والمتاحة للجمهور فهي: 

-١ ©‏ جيزة + + (GIZA++)‏ هو امتداد للبرنامج الجيزة الذي تم تطويره خلال 
صيف عام ١144‏ آثناء ورشة عمل في مركز اللغات في جامعة جونز هوبكنز. 
الجيزة ++ يستخدم من قبل العديد من العلماء لبناء نموذج الترجة القائم على 
مستوى الكلمة» كا يستخدم لمحاذاة الكلمات في مدونة ثنائية اللغة. ويمكن 
تحميل هذه الأداة مجانا من شبكة الإنترنت. 

Y ,o‏ - البرمجيات المتاحة جانا من جامعة كارنيجي ميلون-كامبريدج لبناء نهاذج 
إحصائيّة للغات”2 وكذلك البريجيّات المتاحة من جامعة ستانفورد لنفس 
الخرض”. 

Y, o‏ - هناك مجموعة من برامج فك التشفير المتاحة مجاناء والتي يمكن تحميلها. 
فهناك برنامج فاك الشفرة للنظام المبني للترجمة على مستوى العبارة ويسمى 
(S . Pharaoh)‏ أن هناك GU,‏ يستخدم بكثرة هذه الأيام يسمى 
.®(Moses)‏ 


5 - أفكارٌ لتطوير مدونات لغوية مستقبلية 

حيث إن أكثرٌ المدونات ثنائية اللغة غير متاحة مجانا للباحثين» كا أن المتاح منها 
بمقابل في جال الأخبار OB clas‏ هناك احتياج لاستحداث مدونات ثنائية اللغة في 
مجالات أخرى. ويفضل اختيار المجالات التى بها مادة مترجمة إلى أكثر من لغة» مثل: 
aM il e‏ التحدة عل تنبكة الريب S‏ يمكن za GL]‏ للمدونات zat‏ انل 
المناحة لتحسين جودة نموذج الترجمة الناتج عن هذه المدونات. 


- http//:www.fjoch.com/GIZA .-—html. 
- http://mi.eng.cam.ac.uk/-prc14/toolkit.html. 
- http://www.speech.sri.com/projects/srilm/. 


- http://www.isi.edu/licensed-sw/pharaob/. 


سم A U N‏ صن 


- http://sourceforge.net/projects/mosesdecoder/. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mn—————— $5‏ 


a 9‏ & 
٦‏ و -١‏ موضوع الفكرة الأولى: 
تذيبل 2534 ثنائية اللغة صر فيا ودلاليًا 
* مادة الدراسة: 
USA ud‏ ا 
* الأسئلة البحيّة: 
- ما هي مجموعة المعلمات/ الرّموز (tags)‏ التي تستخدم لتذييل الكلمات؟ 
- ما هى المنهجية المناسبة لتذييل الكليات في المدونة ثنائية اللغة ؟ 
* منهج الدّراسة» ومجال البحث: 
تقوم الدراسة على استخدام برمجيات لمساعدة الباحث في تذييل الكلمات في الجمل 
المتقابلة» والتي قد تصل إلى خمسين ألف جملة (حوالي مليون كلمة) على الأقل؛ 
ومن ثم يمكن تحسين نموذج الترجمة الإحصائي الذي يمكن إنتاجه من هذه 
X yat‏ 


Y , ٦‏ - موضّوع الفكرة الثانية 
بناء مدونة متعددة اللغات فى مجالات منظات الأمم المتحدة 
* مادة الدراسة: 
مواقع منظمات الأمم المتحدة الإلكترونيّة» والتى تحتوي على وثائق متعددة 
اللغات؛ أو استخدام بعض الكتب المترجمة المتاحة. 
* الأسئلة E‏ 
- ما هى المنهجية المناسبة لمحاذاة الجمل في المدونة متعددة اللغات» حيث | 
cole: JJI‏ قد لا تكون حرفية؟ 
- ماهو الأسلوب الأمثل لتعظيم الفائدة من بناء هذه المدونة متعددة اللغات» 
حيث إِنْ حجمها قد لا يكون كبيرًا؟ 


C: lay 


—AY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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* منهج الدّراسة» ومجال البحث: 
تقوم الدراسة على استخدام برمجيات لمساعدة الباحث لمحاذاة الجمل المتقابلة: 
والتي قد تصل إلى خمسين ألف جملة (حوالي مليون كلمة) على الأقل مع محاذاة 
٠‏ من هذه الجمل على مستوى الكلمة» وذلك لتحسين عملية محاذاة الكلمات 
الترحة الإحصاتى الذي يمكن إنتاجه من هذه المدونة. 


ملحق - الأساس i BII‏ لبناء نظام Jia y‏ إحصائيٌ 

يوضح هذا الملحق الأساس النظري لبناء نظام ترجمة آلي إحصائي؛ ويرجع هذا 

الأساس إلى نظرية «القناة المشوشة» المعروفة في حقل المعلومات. يقوم تطبيق هذه 

النظرية في الترجمة الآلية على تصور أن الجملة الأصلية قد تم إرسالها من مصدر في قناة 

اتصال ووصلت مشوشة إلى هدفها؛ هذه الجملة المشوشة هي ترجمة الجملة الأصلية. 

وعملية الترجة هي إرجاع الجملة المشوشة إلى أصلها. يمكن التعبير عن عملية الترجمة 
باستعمال نظرية الاحتمالات كما يلي: 


(1) argmax P(e | f) 
e 


إذا افترضنا أن الحرف (e?‏ يشير إلى ile‏ باللغة العربية وأن الحرف D‏ يشير إلى أي 
لغة أجنبية وأن هناك أكثر من ترجمة للجملة €D‏ وأن لكل ترجمة قيمة مختلفة للتعبير 
«(e | DP ie VI‏ فإنه يمكن قراءة التعبير ie VE‏ المذكور أعلاه كا يلى: الجملة 
العربية «e?‏ التي تنتج أكبر قيمة للتعبير الاحتمالي e | DP‏ تكون هي الترجمة الأكثر 
Yel‏ للجملة D‏ وإذا افترضنا أن: 


١-عدد‏ الكلات في الحملة هو m.‏ 


Mf مكونة من الكلمات ,££ ا‎ P» -الحملة‎ Y 
تكون‎ um do يمكن أن تترجم إلى أكثر من ترجمة. ولنقل إلى‎ tfo كلمة‎ Js-Y 
AERE) .... .... P(e | D باحتمالات:‎ «e;.... e, ترجمة‎ 


؛ -متوسط 239 ترجمات كل كلمة هو SO.‏ 


A. 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
/ ;1 ا 


ه-كل كلمة تترجم إلى كلمة واحدة. 

5-كل كلمة تترجم في نفس المكان في الجملة المترجمة. 

J‏ اقرا كل eda‏ لافار اقات الى رات cote jode OB‏ اا D‏ کین 
(1e. (k^m»‏ سبيل JULI‏ ]15 كان عدد كلمات الجملة «f‏ عشر كلمات «m710)‏ وكل 
كلمة يمكن أن تترجم إلى كلمتين ختلفتين في المتوسط (2=))ء فإن عدد الجمل التي 
يمكن أن تنتج هو e10^2‏ أي ٠١75‏ ترجمة ب ٠١75‏ احتمال. ويكون احتمال ترجمة 
الحملة «f‏ إلى الجملة «e»‏ كما يل: 


m 
(Y) P (e|f) - II P(e]£) 
j=1 


بعد القيام بحساب ٠١١٤‏ احتمال» نختار الجملة الأكثر احتمالا. 
مشكلة هذه الطريقة أن الترجمة تعتمذ فقط عل احعالات ترحة الكلات القى ينبغى 
أن تكون جيّدة جدًا حتى يمكن الحصول على ترجمة مقبولة. في الواقع يصعب الحصول 
على تقدير جيد لترجمة كل الكلمات من لغة إلى لغة أخرى؛ لذلك تم استخدام قاعدة بايز 
LS (Bayes' Rule)‏ هو موضح في المعادلة رقم (Y)‏ 
(Y) P(e|f) = P(f| e) P(e) / PŒ‏ 
هذه المعادلة تحول حساب احتتمال ie‏ جملة من لغة المصدر إلى لغة ال هدف 
(e | 2)‏ إلى حساب احتمالين» الاحتمال الأول هو احتمال ترجمة جملة من لغة الهدف 
إلى لغة المصدر (P(f | e))‏ والاحتال الآخر هو احتمال حدوث هذه الجملة في لغة 
الحدف ((2)6). أما احتمال حدوث جملة لغة المصدر (P(f))‏ فهو قيمة ثابتة يمكن حذفها 
P(e | f) = P(f | e) P(e)‏ )£( 
الاحتمال الأول يمكن حسابه من نموذج الترجمة والاحتمال الآخر يمكن حسابه من 
نموذج اللغة. في أول نموذج للترجمة قدمه مركز أبحاث "IBM - IBM Model-1"‏ 
كان نموذج الترجمة مكونًا من مجموعة احتمالات لترجمة كلمات من لغة ا هدف إلى لغة 


SAEZ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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المصدرء يتم حسابها من مدونة ثنائية اللغة. أما نموذج اللغة فهناك نماذج عديدة «Ax‏ 
أبسطها هو نموذج اللغة الثنائيٌ» وهو عبارة عن مجموعة من احتمالات تتابع كلمة 
لكلمة أخرى؛ ويمكن تكوين هذا النموذج من مدونة أحادية اللغة. 

ومن ثم يمكن حساب احتمال ترجمة جملة مكونة من عدة كلمات من خلال حساب 
المعادلة C‏ كما يلى: 


m m+1 
(o) ره | )م‎ HP(f,|e;) PP(e;le.,) 
gt jl 


هذه الطريقة أفضل من الطريقة المباشرة» حيث Ol‏ نموذج اللغة يحسن من جودة الترجمة 
لأنه يعطي وزنا أكثر للترجمة التي تتوافق مع قواعد لغة الهدف» ومن ثم فإن المشكلة 
لبناء نموذج الترجمة سنكون في حاجة لتكوين مدونة متحاذية ثنائية اللغة» وهذه 
E 3 5‏ 
أيضا مشكلة حيث إن المدونات اللغويّة الثنائية لا تكون متحاذية على مستوى الكلمة 
حين يتم تجميعها؛ وعاذاة المدونة الثنائية على مستوى الكلمة يدويًا فيه صعوبة بالغة 
فلإنتاج نموذج ترجمة يتم اتباع الخطوات التالية القائمة على فكرة خوارزم التقدير 
و التعظيم :(Estimation- Maximization Algorithm)‏ 
-١‏ يتم توليد جميع المحاذات الممكنة على مستوى الكلمة لكل جملتين متقابلتين. 
enl colam es -Y‏ ترهة كل كلمة من لخ cad‏ إن PUP | e) SAAN‏ 
تقريبيا عن طريق افتراض أن ترجمة أي كلمة في لغة الهمدف يمكن أن تكون 
واحدة من الكلمات في لغة المصدر؛ وإذا كان عدد الكلمات في لغة المصدر هو 
(N)‏ فسيمكن حساب احتمال P(f | e)‏ تقریبیًا کالتالي: 
CO P(f|e)=1/N‏ 
-Y‏ يتم حساب احتمال كل محاذاة من خلال المعادلة الآتية: 


(V) m 
P(a, f| e) - P(f,|e,;) 
21ل‎ 


—A0- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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حيث (8) هو كم 42 (Vector)‏ يمثل المحاذاة بين الكلمات في جملة المصدر والكلات 
في جملة الهدف. فعلى سبيل المثال» إذا كانت الحملة الإنجليزية : 
(A Chinese minister wins United Nations environmental prize)‏ 
وترجمتها إلى اللغة العربية: 
«وزير صيني يفوز بجائزة الأمم المتحدة للبيئة) 
ومغ اعفان أن لغة المضدر هي الإنجليزية ولغة القدف هي العربية؛ حيث إن كه 
المتجه «a»‏ كالتالى: 


Y ١ Y 5 o 0 í 


A Chinese Minister Wins United Nations Environmental Prize 
o في نفس المعادلة هي‎ Ga e? و‎ «United? هي كلمة‎ (V) في المعادلة رقم‎ «fo» فان‎ 
المدف» وهي الحملة‎ ila الذي يمثل الكلمة السادسة في‎ ٦ تعني الرقم‎ (a0 حيث‎ (ao 

العربية؛ ومن ثم يمثل (G a e?‏ كلمة «المتحدة». ويكون احتمال هذه المحاذاة: 

6 صيني =P (A [null) P (Chinese|‏ (وزير صيني ...| (A) P(a, A Chinese minister...‏ 
لكل محاذاة احتهال» وهذا الاحتمال يتناسب طرديًا مع تحسّن احتمالات ترجمة الكلمات 
المتحاذية. في البداية تكون جميع احتمالات توليد كلمات جملة المصدر من جملة الهدف 
متساوية S‏ سبق وتم شرحه في الخطوة رقم (؟). بعد حساب الاحتمالات لكل ille‏ 

لحملتين متقابلتين يتم تطبيع (normalize)‏ هذه الاحتالات ليكون مجموعها ۱١, t‏ . 
4- من خلال احتمالات المحاذاة المختلفة لكل جملتين متقابلتين» فإنه يمكن أن يتم 
إعادة حساب نموذج الترجمة» والذي يتكون من مجموعة من احتمالات توليد 
كلمات من لغة a‏ إلى لغة المصدر من خلال القيام بعملية عد جزئيٌ partial)‏ 

(count, pc‏ طبقا للمعادلة التالية: 


(a)  pe(f[e)- (©|0.1)عمة‎ 
a 


والعد 53-1 5 له علاقة باحتمال المحاذاة. فعلى سبيل المثال» إذا كانت كلمة «للبيئة) قد تمت 
محاذاتها بكلمة environmental)‏ في جملتين متقابلتين وكان احتمال محاذاة هاتين الحملتين 
(a‏ هو ٤‏ , *. كان العد 552-1 | ie ;J «po»‏ كلمة «للبيئة» إلى (environmental)‏ 


A= 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


هو .٠, ٤‏ إذا كانت هاتان الكلمتان قد تمت محاذاته) في جملتين أخريين وكان احتمال 
المحاذاة هو ”, c*‏ فإن العد الجزئى لتوليد كلمة environmental)‏ من كلمة «للبيئة») 
يصبح ۷, ١؟؛‏ وهكذا تتم زيادة العد الجزئي كلما حدثت محاذاة بين نفس الكلمتين. أما 
إذا تم توليد كلمة (environment)‏ من كلمة «للبيئة» في عدة جمل وكان العد الجزئى 
هذا التوليد هو ١,5‏ فإنه يمكن حساب احتالات توليد كلمة (environment)‏ 
و (environmental)‏ من كلمة «للبيئة» من خلال قسمة العد G2‏ لكل حالة de‏ 
Adi dia‏ الجزئي للحالتين» ومن ثم يكون Ji‏ توليد كلمة (environmental)‏ 
من كلمة «للبيئة): 

P (environmental | iU) = ٠ , v /(*, v«Y,0) 2 *, YY 

Jl »‏ 5 44 كلمة (environment)‏ من £415 «للبيئة): 
١,5 /(*, V&Y,0) 2 *, 1A‏ = (للبيئة | P (environment‏ 
-٥‏ يتم إعادة حساب احتمالات المحاذاة e‏ ا ( بعد إعادة حساب احتمالاات 
es Ag‏ لغة المصدر من لغة cdl‏ وتتم مقارنة هذه الاحتالاات الحديدة 
مع احتمالات المحاذاة القديمة؛ فإذا كانت نتيجة المقارنة أن هناك فارقًا dS‏ 
فستتم إعادة المخطوة رقم e£‏ أما إذا كان هذا الفارق صغيرًا li‏ فسيتم الانتهاء 
من هذه العملية؛ وتكون نتيجة هذه العملية بناء نموذج الترجمة» وكذلك إنتاج 


مدونة متحاذية على مستوى الكليات. 
وسوف نعطي هنا es‏ تطبيقيا مبسطًا لتوضيح العملية السابقة. لو افترضنا أننا 
نملك هذه المدونة: 
Chinese Minister‏ وزير صيني 
Minister‏ وزير 
Chinese Prime Minister‏ رئيس وزراء صيني 


وبتطبيق الخنطوات السابقة على هذه المدونة نحصل على الآتي: 


—AN- 


هذه الطبعة إهداء من المركز 
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pa TA 
Chinese Minister Chinese Minister 
(Y) () 
وزير‎ 
Minister 
(Y) 


رئيس وزراء صيني رئيس وزراء صيني رئيس وزراء صيني 


2 


Chinese Prime Minister Chinese Prime Minister Chinese Prime Minister 


CU (o) (£) 


حيث إن عدد كلمات لغة المصدر في المدونة البسيطة هو ثلاث كلمات» فإن أي كلمة في 
لغة ad‏ يمكن أن تولد UT‏ من هذه الكلرات. ويكون احترال daly‏ كلمة فى لغة 
المصدر هو Y /N‏ 


احتمالات محازات العبارتين المتقابلتين الأوليين في هذه المدونة المبسطة هي: 

P(a, f| e)» 1/3X1/3 = 1/9‏ 
وحتى يكون مجموع احتالات المحازاة »١‏ وحيث إن هناك محازاتين ogl‏ العبارتين 
المتقابلتين» فإن احتمال كل محازاة هو Y /١‏ 
بالنسبة للكلمتين المتقابلتين في المحازاة رقم (P)‏ فإن احتمال هذه المحازاة سوف يكون .١١ ٠‏ 
بالنسبة للعبارات المتقابلة في المحازات C£)‏ و (5) و CO‏ فإن احتمال كل محازاة سوف 
يكون ."/١‏ 


—AA- 


.١‏ توليد جميع 


£ 


الحازات المكة عل ce s‏ الكلمة لكل ode‏ أو agas‏ 
متقابلتين (هناك محازات أخرى» ولكننا سنكتفى ببذه المحازات للتبسيط). 


من لغة الهدف إلى لغة المصدر. 


۳. حساب احتمال كل محازاة. 
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3 = (رئيس | pe(prime‏ | المحازاة CE)‏ 
1/3 = (رئيس | pe(minister‏ | المحازاة (o)‏ 
1/3 = (رئيس | pe(Chinese‏ | المحازاة CU‏ 
1/3 = (وزراء | pe(minister‏ | المحازاة (€) 
1/3 = (وزراء | pe(Chinese‏ | المحازاة )6( 
1/3 = (وزراء | pe(prime‏ | المحازاة CO‏ 

(Y) و‎ CO المحازاة‎ | pe(minister | 555) 11/2 
CY) المحازاة‎ | pe(Chinese | 555) 1/2 

CE) و‎ C المحازاة‎ | pe(Chinese | =(صيني‎ 03 


C) و‎ CY) المحازاة‎ | pe(minister | <ر(صينى‎ 3 


Co) المحازاة‎ | pe(prime | (صينى‎ = 1/3 


من هذا العد الجزئى يمكن إعادة حساب احتمالات توليد كلمات لغة المصدر من لغة 


الهمدف كالتالي: 


5/12 = (5/6(/)5/6+5/6+1/3) = (صينى 
5/12 = )5/6+5/6+1/3( /(5/6) = (صينى 


P(minister 


P(Chinese 


P(prime | (صينى‎ = )1/3(/ (5/6+5/6+1/3) = 2/12 = 1/6 


3/4 = )1/2 +3/2( /(3/2) = ) وزير 


4 = )1/2 +3/2) /(1/2) = ) وزير 


P(minister 


P(Chinese 


P(prime | رئيس‎ ) = )1/3(/)1/3+1/3+1/3( = 1/3 


P(minster | رئيس‎ ) = (1/3) /)1/3+1/3+1/3( = 1/3 


P(Chinese | رئيس‎ ) = (1/3) /(1/3+1/3+1/3) = 1/3 


P(minister | (وزراء‎ = (1/3) /(1/3+1/3+1/3) = 1/3 


P(Chinese | (وزراء‎ = (1/3) /)1/3+1/3+1/3( = 1/3 


P(prime | (وزراء‎ = (1/3) /(1/3+1/3+1/3) = 1/3 


AX 


E T d الصدومه‎ a oL Isa a الاك‎ d 
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حتالات المحازاة قبل التطبيع 


P(a=1, f | e) = 3/4X5/12 = 15/48 
P(a=2, f | e) = 1/4X5/12 = 1/48 
P(a-3,f]e)-3/4 

P(a=4, f | e) = 1/3X1/3 X5/12- 5/72 
P(a-5, f | e) = 1/3X1/3X1/6 22/72 
P(a-6, f | e) = 1/3X1/3X5/12 = 5/72 


كما نرى فإن المحازاة رقم )١(‏ والمحازاة رقم C£)‏ والمحازاة رقم CO‏ قد تحسنت بقدر كبير» 
وذلك بسبب المحازاة رقم (Q9)‏ والتي تحتوي على كلمة واحدة ما يعطي دفعة كبيرة لاحتمال 
توليد كلمة minister‏ من كلمة وزير» وكذلك لان Jl‏ توليد كلمتى Chinese, minis-‏ 
ter‏ من كلمة صيني أكبر من احتمال توليد كلمةعصنة:م من كلمة صيني. ومن ثم فإننا سوف 


نعيد الخطوة رقم .)٤(‏ 


احتالات المحازاة المطبعة 


P(a=1, f| €) = 15/16 
P(a=2, f | e) = 1/16 
P(a=3, f| e)=1 

P(a=4, f | e) = 5/12 
P(a=5, f | e) = 2/12 
P(a-6, f | e) = 2 


- 0. 


o‏ . إعادة حساب احتتمالات المحازاة. 
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7/12 = 1/6+5/12 = (صيني | pc(minister‏ المحازاة(2؟) و(5) 
65/48 = 15/16+5/12 = (صيني | pc) Chinese‏ المحازاة(١)و(5)‏ 
2 = (صيني | pe(prime‏ — المحازاة(0) 
6 = 15/16+1 = (وزير pe(minister|‏ — حازاة (Y) ; CO‏ 
pe(Chinese| »55) - 1/16‏ المحازاة(؟) 
5/12 (رئيس || pe(prime‏ ال محازاة )٤(‏ 
2 = (رئيس pc(minister|‏ — المحازاة(0) 
5/12 (رئيس | CO!  pe(Chinese‏ 
5/12 (وزراء | pe(minister‏ — الحازاة (€) 
pe(Chinese| «155 5) = 2‏ — الحازاة (o)‏ 
2 = (وزراء pe(prime|‏ المحازاة(5) 
من هذا العد الجزئى يمكن إعادة حساب احتمالات توليد كلات لغة المصدر من لغة الهمدف 
كالتالي: : 
28/101 = )7/12)/(7/12+65/48+2/12( = (صيني | P(minister‏ 
65/101 = )65/48)/(101/48( = (صيني | P(Chinese‏ 
8/101 = )101/48( /(2/12) = (صيني | P(prime‏ 
31/32 = )1/16 +31/16) )31/16( = (وزير | P(minister‏ 


P(Chinese | (وزير‎ = (1/16)/ (32/16) = 1/32 

P(prime | (رئيس‎ = (5/12)/(5/12+2/12+5/12) = 5/12 

P(minster | (رئيس‎ = (2/12) /(12/12) = 2/12 

P(Chinese | (رئيس‎ = (5/12) (12/12) = 2 

P(minister | «155 5) = (5/12) /)5/12+2/12+5/12( = 5/12 

P(Chinese [el ; 55) = (2/12) (12/12) = 2/12 

P(prime وزراء|‎ ) = (5/12) (12/12) = 5/12 

يمكننا أن نلاحظ أن احتمالات توليد كلمات لغة المصدر الصحيحة من لغة الهمدف قد تحسنت 


ad 


£ 


٦‏ . اعادة 


احتمالات توليد كلمات لغة المصدر من لغة AM‏ 
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الفصل eu‏ 
التشكيل الآلى 


7 E 
د. محسن رشوان‎ 


١‏ - تعريف بعلامات التّشكيل في اللّغْة العربيّة. 
-Y‏ صياغة رياضيّة لحسم مشكلة التشكيل. 
cune - Y‏ باب Jal‏ 

5 - خوارزم فيتربي. 

-o‏ مسائل أخرى متشابهة. 

Reg n‏ من نتائج. 

لاحتطيعة iA‏ الى ا 

8- أفكارٌ بحثيّة لأطرّوحاتٍ علمية مستقبلية. 


EN 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


zi A 
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Me 

الكلمة العربية مركبة تركيبا ميزا؛ فهى تجمع بين خاصية الاشتقاق (Derivative)‏ 
وخاصية الالتصاق (Adhesion)‏ ويبدو أن الأمّة العربيّة تقدمت بلغتها تقدما Wh‏ 
حتى أن بلغاتها لم يكونوا في حاجة عند كتابتها إلى استخدام النقاط أو علامات الصبط 
(الحركات القصيرة والشَّدَّة والتنوين) لبيان المعنى. ورحم الله المتأخرين بأن قيد الله 
من أضاف التنقيط وترك ما دون ذلك من علامات لبداهة القارئ. وعندما ظهر علم 
حوسبة اللغة أضاف هذا DANI‏ المزيدَ من التحديات أمام حوسبة اللغة العربية مقارنة 
بلغات أخرى ليس فيها هذا التحدي. 
وسنتناول في هذا الفصل سبعة حاور» هي: 
-١‏ تعريف بعلامات الصّبط/ التشكيل في اللغة العربيّة. 
-Y‏ صياغة رياضية لحسم مشكلة التشكيل. 
kd asc‏ بايز المبسط .(Naive Bayesian Classifier)‏ 
5 - خوارزم فيتربى (Viterbi Algorithm)‏ . 
ه- مسائل أخرى متشاة. 
1- أفضل ما je‏ من نتائج. 
ا ا اجا 


-١‏ تعريف بعلامات التشكيل في اللّغة العربية 

توجد بعض اللغات مثل: اللغة الإنجليزيةء غالبا ما IÊ‏ نطق الكليات بها من 
خلال الحروف المكونة ها. حيث إن تتابع الحروف المتحركة والساكنة هو الذي يحدد 
النطق الصحيح للكلمة. ويطلق على مثل هذه اللغات (اللغات غير المشكلة). ومن 
ناحية أخرى؛ توجد بعض اللغات تعتبر نطق كلماتها غير حددة بالكامل بواسطة أحرف 
هجائها فقط. فعلى سبيل المثال: من الممكن أن تكون هناك كلمتان متطابقتان في التهجئة 
(es‏ مختلفتان في النطق والمعنى تمامًا. لإزالة ذلك الالتباس يتم وضع علامات خاصة 
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dek‏ أو أسفل الكلمة لتحديد النطق الصحيح. وتلك العلامات تسمى «التشكيل»» 
واللغات التي تستخدم تلك العلامات تسمى اللغات AKÉ‏ واللغة العربية واحدةٌ 


من هذه اللغات. الواقع أن اللغة العربية لدا أدق نظام تشكيل مفصل. 
ويبين الجدول EI‏ علامات التشكيل في اللغة العربية ومغزى كل منها: 


التشكيل 


(s 


cS cl 


العلامة 


أمثلة 


el ciel مَصتّع)‎ mHce 
وو عو و 5 و‎ 
صراخ» عود‎ qe کتب»‎ 
عيال» مم‎ cigs تاب‎ 


Jl «glo «aul TP 


cule des‏ طعامّاء ثراءً 


حص قصونء استعداث E»‏ 


cela‏ ملاقاة» معانٍ» محا 


ix] 


کاتب» JÉ (eio‏ 
ججير» cob eee‏ 
n2 5‏ و 
بیوت» كوفئ» روح 
لو ois.‏ 
نادی» مغال 
آلسّماء» والسّماء» 
2 
قانُواء أولئك 
هذاء ذلك» 


PETS ec 


دو وأ- 


ملاحظات 


الأصل أن يوضّع تنوين الفتح 

على الحرف SUI‏ للألف 

يحتوي الحرف الأخير فقط 
على التشكيل 


يحتوي الحرف الأخير فقط 
على التشكيل 


عادة لا يكتب هذا الصنف 
من التشكيل 
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التشكيل العلامة أمثلة ملاحظات 
J+j= duu‏ 
we‏ في الحقيقة» لا تعتبر الشدة من 
E‏ كد = c cud] dere‏ 
حق؛ق = eS T gap ki Sté‏ 
عند النطوّ 
الصّبح؛ ص = ص ص 


e‏ ا 

ic Jesi es cula sa 

-١, ١‏ حالة الحرف المشّدَّد (يحتوي على شدة / لا يحتوي عليها). 

١‏ الحرف المشكل. 

مع الأسف. فإن كتابة اللغة العربية لم تعد تتضمن علامات التشكيل. فقد استعاض 
الناس عن التشكيل بمعرفتهم بالنطق الصحيح من خلال السياق» وأصبح التشكيل 
quo‏ نا الالتباس في بعض المواضع أو لأغراض تعليمية. s‏ | فإن 
المشكل UNI‏ يجب أن يتدرب عل تشكيل الكلات العربية ويتضم آلية للتعرف de‏ 
ا علامات تشكيل ناقصة بالكلمة العربية المدخلة. 
التشكيل التام: 

حيث يتم تحديد كافة المعلومات التشكيلية في اللغة العربية لكل حرف في الكلمة» 
متضمنة الحرف الأخيرء وأحيانا يتم تشكيل الحرف الأخير اعتمادًا على التحليل النحوي 
للكلمة؛ ويتم ذلك من سياق الجملة. انظر هذا المثال: 


ع1 2 


E 


لا يوجد تشكيل: إذا كنت ذا قلب قنوع فأنت ومالك الدنيا سواء 
تشكيل جزئي: إذا كنت ذا قلب قنوع cool‏ ومالك الذثيا راء 
ق8 إذا SEES‏ قلين فتوخ تلت وكالك 53 222 


za de 
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-Y‏ صياغة رياضيّة لحسم مشكلة التشكيل 

دعنا نأخذ مثالا مبسطًا لفهم المسألة رياضيا؛ سنرمز للكلمة بالرمز اللاتيني 
(اختصارًا ل (word‏ ويسأل سائلٌ: لاذا تكون المعادلات بالأحرف اللاتينية؟ إن 
ذلك لوصل القارئ بمعارف العصر؛ فهذا الكتاب نريده أن يكون همزة وصل بعلوم 
ومراجع كثيرة» الأجنبي فيها أكثر من العربي بآلاف المرات؛ فلا ضير من ذلك؛ بل إن 
فيه نفع التعود على الانتفاع من علوم سبقنا فيها أجيالا. لعل أجيالا قادمة يتدفق منها 
عطاء أهل العربية من العلوم الحديثة ما يرجح كفة الترميز مها والكتابة مها ليعود النهل 
les‏ كان من قبل. 

فلو افترضنا أن الجملة تتكون من العديد من الكلمات كالآتي: 

Wy .ول‎ WÛ J Win Wan Wy 

فهذه الجملة التي عدد كلماتها N‏ ورقم الكلمة في الجملة «[) و «...» تعنى أن هناك 
كلمات ها أرقام متصاعدة من آخر كلمة قبل هذه النقط إلى أول كلمة بعدها؛ سيكون 
لكل كلمة أكثر من تشكيل محتمل إذا أخذت مجردة عن سياق الجملة. وكمثال على 
ذلك: 

١‏ - التلميذ كتب الدرس كيب 

۲- التلميذ حمل كتب المدرسة سه CS‏ 

«كتب)» يمكن أن تأخذ تشكيلات كثيرة ولكل معنى مختلف مثال: 


في بعض الأحيان تكون الأشكال الصحيحة المختلفة لتشكيلات الكلمة بالعشرات. 
ولتيسير ذلك.. نفرض أن عندنا عددا حدودا من الاحتالات لتشكيل كلمة بينهاء 
ولتكن كلمة ونفرض أن لا M‏ من الحلول (Solutions)‏ وتعال نسمي هذه الحلول: 
الحل الأول S,‏ والحل الثاني ..«S,‏ وهكذا. 

وتعال أيضا نرمز للسياق (Context)‏ بالرمز cC‏ ويمكننا الاصطلاح علي أن السياق 
هو باقي كلمات الجملة كلها أو أن نحدد هذا السياق بعدد محدود من الكلمات قبل وبعد 


-— m 
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هذه الكلمةء هذا كله جائز. تعال نُسغ المعادلة الرياضية لاحتمال كل حل: 

P(s,/C) باعتبار السياق © هو‎ cs, :١ احتمال الحل‎ - Y 

- احتمال الحل ۲: cs,‏ باعتبار السياق C‏ هو(2)5,/0 

2)5,/0( باعتبار السياق © هو‎ cs, Y احتمال الل‎ - Y 

وهكذاء سواء أكان هناك حلان أو أكثر فإننا نفاضل بين هذه الحلول ونختار الأعلى 
احتمالا. ولكن كيف يمكن UJ‏ أن نحسب هذه fco M e VI‏ الذي نملكه هو ذخيرة 
لغوية للتدرب عليهاء بها العديد من المرات التي مر بها كل حل من حلول كلمة W‏ 
والذي نملكه أيضا هو عزل المرات التي جاء فيها كل حل» وعندئذ تكون حساباتنا ل 
P(C/s)‏ ولیس P/O)‏ (حيث j‏ هنا تشير إلى رقم الحل)؛ وذلك لأننا نعزل الجمل 


التي مر بها الحل لا الجمل التي جاءت بالسياق C‏ وهنا لا بد من اللجوء لمعادلة بايز 


:(Bayes) 
P(C/s)) P(s) 


)0( PG/O- go 


ولما كان المقام ثابتا لكل الحلول» فلا داعي لحسابه» ويكفي أن نحسب بسط يمين 
المعادلة .)١(‏ وطاما أن البسط للحل الصحيح هو الأعلى فإن ذلك يعني أن هذا JH‏ هو 
الأكثر احتمالا. ولأننا لو حذفنا المقام فلن يمثل الطرف الأيسر Ne‏ - لكنه يتناسب 
مع tU I‏ فسوف نعيد صياغة المعادلة مع إعادة تسمية -g(s/C)€— P(s/C)‏ 
g(s/C) = P(s/C)‏ )2( 


ويبقى الأمر کا هوء أنه كلما زاد احتمال أي حل زادت قيمة (©/8)5 لهذا الحل. 
كيف نحل هذا النوع من المسائل رياضيا؟ سنجد إجابة هذا السؤال فيا يلي. 


(Classifier Bayesian Naïve) بايز المبسط‎ TE. 


الواقع OL‏ هناك العديد من الطرق والخوارزمات الرياضية لحل هذا النوع من 
المسائل وتسمى هذه الخوارزمات «Classifiers (oU lb‏ ويحتاج شرحها بالتفصيل 
إلى كتاب مفصلء ولكننا هنا اخترنا بعصا من هذه المصنفات» وسنبداً بمصنف يعد 


um 
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بسيطا ولكنه فعال ونتائجه لا بأس بهاء ويسمى «مصنف بايز المبسط) Bayes Naïve)‏ 
(Classifier‏ وجريا على عرف المحترفين من الكتاب عند استخدام مصطلح كثير 
الاستخدام أن يختصروا اسمه باستخدام الأحرف الأولى» أي (م ب م) ويختصرونه 
بالإنجليزية (NBC) LAÍ‏ ويسمى المبسط لأن هناك فرضية رياضية لتبسيط الحل 
وهي اعتبار أن الكلمات التي تمثل السياق مستقلة بعضها عن بعض - وإن كان ذلك 
في الحقيقة غير صحيح OM‏ بعض الكلمات يقترن كثيرا بكلمات أخرى - وهذا الفرض 
سمح لنا بإمكانية التعامل مع السياق بشكل مبسط. والسياق هو مجموع الكلمات 
التي سبقت الكلمة مباشرة أو تلتها. ويجوز لنا بهذا الفرض أن نكتب سياق الكلمة W,‏ 
كالآق: 


(3)  P(O=P(w,) * P(w,)...P(w, ) J*P(w,,) )...PQw,) 
كالآتي:‎ (Y) وكذلك يمكن إعادة كتابة المعادلة‎ 
(4) g(s/C) -[PQw/s) * P(w/s)...P(w, /s) 
*P(w, /s.)...P(w,)] * P(s) 
من حساب‎ LS يجعل الحل في متناول أيدينا. فلو أننا‎ CE) إن صياغة المعادلة‎ 
نكون قد حسمنا الأمر كله‎ P(s) ثم حسبنا أيضًا‎ «G1. s N), PQw/s) الكميات‎ 
وعرفنا أي الحلول في هذا السياق هو الأوفق. إن حساب هذه الكميات يمكن الرجوع‎ 
إليه في ملحق-١ لنظرية الاحتالات وكذلك فصل «نمذجة اللغة» . ولا يفوتنا هنا أن‎ 
يسمى النحو الأحادي» وهو احتمال أن تأتي الكلمة بهذا الحل‎ PE) الاحتمال‎ ob نذكر‎ 
عموماء بصرف النظر عن السياقات المختلفة (أي: احتمال وجودها ككلمة مفردة).‎ 
واا ورو‎ ene lon ديصل‎ ales se OB uds calis وكا‎ 
بين| كلمة «قال» من مادة قيل (أي النوم بالظهيرة)‎ ٠ , 444 إلى أكثر من‎ - «JU» كلمة‎ 
.٠, ٠١١ إلى‎ (JU قد لا يصل نحوها الأحادي - مشروطا بورود كلمة‎ 
والجدير بالذكر أننا سوف نقابل عند تطبيق هذا الخوارزم أو هذا المصنف مشكلة‎ 
وهي أن بعض الكلمات لم نرها من قبل في الذخيرة اللغوية التي تدرب النظام عليها.‎ 
سياق جديد إذا أنت كلمة واحدة لم تر من قبل» فسيكون احتمال ورودها صفراء‎ d 


ع8 ٠١ا-‏ 
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وسوف نضرب في صفر فتكون النتيجة صفرا مهما كانت قوة شواهد الكلمات الأخرى 
في السياق. ولقد واجهنا هذه المشكلة في فصل نمذجة اللغة واستطعنا أن نمنع هذا 
الصفر بافتراض نسبة احتمال صغيرة نسبيا لما م نره من الكلمات. 


(Algorithm Viterbi) فيتربي‎ e خوار‎ - ٤ 
خوارزمات أو مصنفات أخرى مشهورة في حسم مثل هذه المسائل. منها‎ xi 
ويعتمد هذان‎ (A search) (بحث *#) أو‎ Š و‎ (Viterbi search) PENES 
وعادة يبحثان عن أفضل مسار عبر الجملة‎ [To C£] المصنفان على النحو الإحصائى‎ 
بالكامل أو جزء منها. ولكى نتخيل كيف تعمل هذه المصنفات تعالوا نأخذ مثالا مبسطًا:‎ 


بالتحليل الصرفي هذه الجملة البسيطة يمكن أن نجد لكل كلمة عددًا من الحلول 


المحتملة: 

| R, ذهب الولد‎ | 
82534] n 5 ١لح‎ 
الولد ا‎ cas Y 
Ls Tue 


لننظر إلى كافة الحلول الموجودة (وقد تكون هناك حلول أكثر لبعض الكلمات - وبالتالي 
للجملة ككل ولكننا سنكتفي ede‏ الحلول حتى نتمكن من تتبع المثال). إذا تأملنا كل 
المسارات الممكنة من الكلمة الأولى إلى الكلمة الأخيرة سوف نجد Gl‏ أمام Y‏ مسارًا 
(هذا لو اكتفينا بالحلول المبينة في الجدول فقط) ولكل مسار يمكن حساب A‏ 
باستدعاء حسابات النحو العددي للكلمات. agis‏ هذه الأنواع من المصنفات إلى 
حساب أفضل هذه المسارات» أي أعلاها احتمالا. بالطبع هي أكثر تعقيداء ولكن عادة 
تعطى نتيجة أفضل من المصنف الأول (م ب (e‏ أو NBC‏ كما يمكن حساب عدد هذه 
المسارات "EG‏ عدد حلول الكلمة الأولى & # عدد حلول الكلمة الثانية + عدد 
حلول الكلمة الثالثة. وفي حالتنا = Y‏ ٭ ۲ ٭ Y‏ = ۱۲ حلاء أو إن شعت tji‏ مسارًا. 
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وتقدم طريقة أو خوارزم فيتربى حلاً لنفس المشكلة» ولكن بدون فرضية استقلال 
cols‏ الجملة بعضها عن بعضء ولذلك فنتائجها في الغالب أفضل من نتائج خوارزم 
(م ب م). ولتيسير فهم خوارزم فيتربي (Viterbi)‏ دعنا نأخذ مثالا مبسطا: 

هب أن عندنا جملة من كلمتين فقط ولكل كلمة حلان. 


الكلمة الثانية Pass 1 w,‏ " الكلمة الأولى ,س 
11 
S‏ 
Pass 3 21‏ " " 
الحل الأول للكلمة الثانية شه Pass2‏ الحل الأول للكلمة الأول 
Pus S5‏ 
الحل الثاني للكلمة الثانية 4 Pass‏ الحل الثاني للكلمة الأولى 


الشّكل *-1: المسارات الممكنة لجملة من كلمتين» ولكل كلمة حلن. 


Pass4 = eo المسار‎ cPass3 = «Jit المسار‎ cPass2 = المسار الثاني‎ cPass1 = المسار الأوّل‎ 


بافتراض أن (Passi?‏ تعنى احتمال المسار 1. فإن احتمال المسارات المختلفة: 
ijl.5)*P(s, )*P(s, /s,.)‏ الجملة /,,2)5 *(,2)5 = Pass]‏ 


21 ^11 


Pass2 = P(s ,)* P(s,/ الجملة‎ il.5)*P(s, )*P(s, /s,) 


22 1] 


Pass3 = P(s,,)* P(s, / ,5)*(بداية الجملة‎ )*P(s, /s,.) 


21 12 


Pass4 = P(s,,)* P(s,/ الجملة‎ &,15)*P(s, )*P(s, /s,.) 


وأي المسارات أعلى Yel‏ نختار التشكيلات عليه لتكون هي الحل. 

ولو نظرت ودققت في الحسابات للمسارات الأربعة» ستجد أننا نكرر حساب 
أجزاء ليست قليلة مع حساب أجزاء تم حسابها في مسارات أخرى؛ فلو أننا استخدمنا 
ما حسبناه من قبل» يمكن أن نوفر جهدا كبيرا. وحتى تتصور عدد المسارات الممكنة» 
فلو لدينا جملة مها YO‏ كلمة (وهو عدد قريب من متوسط عدد كلات الجملة العربية) 
ولكل كلمة ثلاثة حلول (بافتراض تساوي عددها لسهولة حسابها - إذ في الواقع يمكن 


5 وا- 
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أن يكون للكلمة حل واحد أو ربها عشرات الحلول)؛ وبالتالي يكون عدد المسارات 
(يساوي حاصل ضرب (عدد حلول الكلمة الأولى) (عدد حلول الكلمة الثانية) (عدد 
7 حلول الكلمة الثالثة)... وهكذا نضرب Y‏ في نفسها ٠٠١‏ مرة)» وعليه» ستكون 
النتيجة ST‏ من ۸۷٤‏ مليار حل أو مسار حتمل. 

أي Ul‏ في حاجة لحساب احتمالات لأكثر من AVE‏ مليار مسار محتمل لحملة واحدة؛ 
ولو افترضنا أن قوة ا لحاسب ستسمح بحساب احتمال المسار في Y‏ مللي ثانية» فسنحتاج 
إلى أكثر من AVE‏ مليون ثانية أي حوالي ۸ YT,‏ سنة من الحساب المتصل. 

تعال نفرض أن قوة الحاسب ءتضاعفت آلف مرة. سنختصر الحل في cielu ۲٠١‏ 
أي حوالي عشرة أيام فقط! لن يكون هذا الحل عمليا لولا طرق سريعة لحساب أفضل 
المسارات» ربا لا تتجاوز جزءًا من الثانية الواحدة بحساب هذه الأيام. 

لا بد من التنويه هنا أننا لو لم نتتبع بسهولة بقية الحل هذا الخوارزم فإن ذلك لن يقلل 
من فهمنا لروح الحل الذي أسلفناه. 


تعال نأخذ المسألة أعمق قليلاء وهي Y‏ كلمات مع حلين لكل كلمة. 


Wı wW, W4 
Sii $5 85 
81 ووه ووه‎ 
ويكون لدينا إذن ثمانية مسارات كالآتي:‎ 

283551 = و بب5)‎ $,, S3; 

Pass2 = ($4, $,, x) 

Pass3 = (8$,, وووة‎ $31) 

Pass4 = (s,, S> S3 

Pass5 = وير5)‎ S4, S 

Pass = (s, $4, S 

Pass7 = (8,,, $,,, S, 

Pass8 = (s,,, Sy,» i) 
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وفي هذه الحالة يكون حساب المسار الأول (كمغال ij‏ المسارات) كالاي: 


(بداية الحملة 6 رببداية الجملة/, 2)5*( Pass1—P(s,,‏ 


PCS‏ زرو 
(بداية الجملةى *P(s, )*P(s, /s, ,s,‏ 

هذا يعطي حسابا دقيقا لاحتمال المسار الأول» ولكنه يتطلب حساب وتخزين مسبق 
لاحتمالات من النحو الثلاثى 3-gram‏ مثل (بداية الجملة» ,,8)5,,/5 ونحو رباعى مثل 
(بداية «adl‏ 5200-0 وبالرغم من أن هذا يعطى حلا أكثرٌ ais‏ إلا xdi‏ 
يتطلب ذاكرة أكبر وحسابات أكثر بكثير من النحو الثنائى. ولذلك يمكن تقريب JH‏ 
ومس Ball, em‏ عل eo io Mall sl‏ تايب Gus]‏ بال العا 
co à 5. Q-gram)‏ ال حل كالآتي: 

Passl- P(s,, )*P(s,// )*P(s,) 
*P(s, /s,.) *P(s,.) *P(s, /s,.) 

ace‏ تسات السار الأول Pass]‏ سينا jo‏ الجزئي M‏ فهل عند حساب 
المسار الثاني Pass2‏ سنكون في حاجة لإعادة حساب هذا الجزء مرةً أخرى؟ إن Pass2‏ 
و Passl‏ يشتركان à‏ مسار 73 وهو( ر5/ 8)» إذن لا داعي لإعادة حسابه ثانية. 
ويتكرر الموقف بين المسارين 23553 و 23554 في حساب (رر5,,/5)» إذ لا داعي لحساب 
المسار مرتين» وكذلك بين 292555 و 23556 فإن حساب ) (S, /s,‏ مرة واحدة يكفى. 
ونفس s e‏ بين Pass7‏ و 23558 O‏ حساب ) (s, /s,‏ يكفي مرة واحدة. ١‏ 

ولو أردنا ألا نكرر ما سلف وحسبناه» ثم أضفنا إلى ذلك معلومة أخرى مهمة» هي 
Gl‏ إذا استطعنا عند أي نقطة أن نحسب أفضل المسارات إليها فلسنا في حاجة للبدء 

من أول كلمة في كل مرة» بل يكفي أن نرجع للعمود السابق فقط لتكمل JH‏ عمودا 
بعد عمود ونحن نتحرك من اليسار إلى اليمين (الواقع أن الكلمات العربية تتحرك من 
اليمين لليسار» ولكن GY‏ هذه المسائل موجودة بالكتب الأجنبية من اليسار لليمين؛ 
وحتى يسهل على القارئ الحل إذا نظر في هذه الكتب فإننا تحركنا في نفس الاتجاه» وهذا 
لن يغير الحل في شىء). يمكن أن نحسب الآن المسارات جزءًا جزءًا (بدءًا من اليسار إلى 
اليمين)» وما حسبناه من أجزاء المسار ونحن نتحرك عليه من الكلمة الأولى إلى الكلمة 
الأخيرة لتتأكد باستمرار أننا تحسب del‏ المسارات احتالا. 
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ولسهولة تتبع الحل تعالوا نرمز إلى أفضل الحلول حتى النقطة التي نقف عندها 
بالرمز ,1 » والذي يعني أن عند هذه النقطة سنجد احتمال أفضل مسار من أول كلمة 
حتى النقطة dj‏ هو 1 . 

يمكن شرح الخوارزم المسمي «فيتربي» كالآتي: 

٤‏ و١-نبدأ‏ بحساب احتمالات الوصول من حلول الكلمة الأولى إلى حلول الكلمة 

الثانية. 

* نحسب احتتالات الحل الأول للكلمة الأول مع الحل الأول للكلمة 
الثانية. ثم احتمال ا حل الثاني للكلمة الأولى مع الحل الأول للكلمة الثانية 
ونأخذ أعلى الحلول احتمالا ونسميه Ly‏ . والرمز ,ر1 يعنى أفضل الحلول 
عند الموضع Y Y‏ أي الصف الأول والعمود الثاني. 

؟ نكرر مع الحل الثاني للكلمة الثانية لنصل إلى Ly‏ 

5 و 7- نعيد الكرَّةَ مرة أخرىء مع الأخذ في الاعتبار أننا عند حساب أفضل المسارات 

من الأول إلى الآخر سنستفيد من الحسابات السابقة» فلا نبدأ دائم) من الأول» 

ولكن نبدأ من الكلمة السابقة فقط لأننا قمنا بها يلزم قبل ذلك من حساب 

أفضل المسارات Yel‏ حتى هذه الكلمة. 

o Ss -7 , ٤‏ القيمة الأعلى بين Ly‏ و La‏ هي احتمال المسار الأعلى احتالا. 
E‏ - ويمكن معرفة المسار (أي أفضل الحلول للكلمات) بالاحتفاظ عند كل 

خطوة بأفضل المسارات التى انتهينا إليها عند هذه الخطوة. 

لا ينقصنا الآن إلا Jis‏ عمل لتوضيح المسألة. لتأخذ هذا المثال: 

«ذهب علي بالكرة» . تعال نفرض أن لكل كلمة oho‏ فقط لتيسير فهم حل المسألة 
TAA EET ES‏ 

(s, — (أي تحرك» فعل ماض» حل1‎ C$ 

(s, €— (معدن» اسم» حل2‎ CAS 
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«على» نفرض ها حلان: 

عَلَ (حرف cm‏ حل1 -> (s,‏ 

علي (اسم علم» حل2 -> (s,‏ 

"n 

بالكرّة )855 بمعنى مرة» حل1 — (s,‏ 

(S, >- (كرة يلعب بهاء حل2‎ IL 

وتعال تفرضن توافر هذه الاخالات من مدونة (ق حالتنا تخيلية) حسينا lo‏ 
الاحتالات الآنية: 


uni-gram أو‎ 1-gram النحو الأحادي‎ 
P(s,, ) -0.03, P(s,, ) =0.05, P(s,, ) - 0.01, 
P(s;, ) —0.02, P(s;, ) —0.01, P(s,, ) —0.05, 


bi-gram 512-gram النحو الثنائى‎ 


P(s 31/s 21) P(s, /s,, )=0.0 

P(s Il/Al.o (الحملة‎ = 0.1 31 S21 
i 7 s l i P(s,/ Sil 0. 2 P(s, / ورة‎ ( = 0. 05 
P(s,/s,, )-0.1 P(s, /s,, )2:0.0 

P(s, (الحملة بداية/,‎ = 0.05 2/51 3/8, 
(الجملة بداية/ي,5)‎ P(s, /s,, )-0.1 P(s,/s,, ) = 0.05 


dde 


Eyes 


الجدول :Y- Y‏ يوضح الحل الكامل JUL 5 ga JU‏ التشكيل «ذهب على بالكرة». 


الحل الأول للكلمة الثالثة  As,‏ 
أفضل الحلول حتى هذه النقطة 


L21 * P(S31/821) * P(S31) 
L22 * P(s31/s22) * P(s31) 


75*1075*0*0.012 0 
6 x 10-6 + 0.05 + 0.01 = 3 107? 


= 3 + 107? —(s1,, S22; $32) 


L31 = max 


max f 


الحل الثاني للكلمة AG‏ ,وو - jS,‏ 
أفضل الحلول حتى هذه النقطة 


L21 * P(S32/821) * P(sa2) 
L22 * P(s32/s22) * P(s32) 


7.5 * 10-6 + 0 + 0.05 ب‎ 0 
6 x 10-6 + 0.3 * 0.05 = 90 107? 


= 90 x 89 >(S11; S22; S32) 


أفضل المسارات 


L32 = max | 


max f 


الحل الأول للكلمة الثانية اوو على 


أفضل الحلول حتى هذه النقطة 


L11 * P(s21/s11) * P(sz1) 


max |‏ > دوب[ 
T L12 * P(s21/s12) * P(sz1)‏ 


0.003 « 0.05 * 0.05 = 7.5 + 1076 
0.001 0.10.05 = 5 * 1076 


= 7.5 * 1076 >(S11 512) 


max f 


الحل الثاني للكلمة الثانية ١‏ ررء= علي 


أفضل الحلول حتى هذه النقطة 
L11 * P(s22/511) * P(s22)‏ 
L12 * P(s22/s12) * P(s22)‏ 


0.003«0.2«0.0126* 1076 
0.001 * 0.1 * 0.01 = 1* 1076 


= 6 * 1076 —(s1,,522) 


La = max l 


= max f 


الحل الأول للكلمة الأولى 


CAs] 


أفضل الحلول حتى هذه النقطة 


L447P(s14/ (بداية الجملة‎ 
*P(s,,) —0.1* 0.03 = 0.003 


الحل الثاني للكلمة الأولى 


2-9 
q5-512 


أفضل الحلول حتى هذه النقطة 
L1? = P(s12/‏ 


0.05*0.02—0.001 


ولا 
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ومن الجدول (Y Y)‏ يمكن أن نستنبط أفضل الحلول عندما وصلنا للمحطة الأخيرة 
هو الأكثر احتمالآ ثم نتتبع أفضل المسارات على الإطلاق. سنجد أن حل (S,55,,5,.‏ 
هو أفضل المسارات احتمالاء وهذا يعني أن تشكيل الحملة يكون كالآتي: 

de cé‏ بالكرّة 

وإذا أخذنا جملاً طويلة» ولبعض كلماتبا حلول كثيرة تصل للأربعين حلاء سنجد 
Ul‏ نبلغ هدفنا في أقل من ثانية» UN‏ كلما تقدمنا في الحل نحسب أفضل المسارات 
من أول كلمة إلى النقطة التي نحن عليها دون عناء البدء دائم) من الأولء بل نبدأ من 
الكلمات التى تسبقنا فقط. 
«الباحث Ge‏ يعتمد على n-gram‏ أعلى من cbi-gram‏ ويعطى نتائج أفضل بكثير. 
كا أن هناك أيضا مصنفات أخرى مثل الشبكات العصبية وآلات الدّعم HEN‏ 
(Support Vector Machine)‏ وهى مصنفات حديثة brad‏ وذات مقدرة هائلة» لولا 
ما تحتاجه من إمكانيات عالية» سواء في الذاكرة أو القدرة الحسابية. انظر الملحق - Y‏ 


-٥‏ مسائل أخرى متشامهة 

هاف سال لخوية أرق كتير ها ق الشكل الريافي الى تواجهه عندها 
تصدينا لحل مشكلة التشكيل الآلي. إن لدينا مستويات مختلفة لمشكلات اللغات الحية 
عمومًا واللغة العربية خصوصًاء بدءًا من التشكيل الآلي أو الحسم الفونولوجي إلى 
الحسم JYI‏ على مستوى الجملة. كلها تشترك في أن الحل يكمن في السياق. ومن 
هذه المسائل: 

5 - التشكيل JII‏ لبنية الكلمة العربية (المشكلة سالفة الذكر). 

(body-word) Diacritization Automatic)) . 
. Automatic Diacritization للكلمة العربية‎ JM التشكيل الإعرابي‎ -Y, o 
.(Morphological analysis) à» JI التحليل الصرفي للكلمة‎ -Y , o 


. (Automatic Parsing) التحليل التركيبى أو النحوي للجملة العربية‎ - o0 


in. 
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5 , ه- التعرف على «أسماء الكائنات» من السياق (مثل:أسماء الأعلام» والأماكن» 
وأسماء المؤسسات. والأحداث.... .(Named Entity Recognition) (ed!‏ 


3 - فك الالتباس gyi‏ للكليات (Word Sense Disambiguation)‏ . 
وهكذا نجد العديد والعديد من التقنيات التي ها نفس روح المشكلة الرياضية 
ونفس روح الحل الرياضي مع اختلافات بسيطة من مشكلة إلى أخرى. 


-٦‏ أفضل ما je‏ من نتائج 

وهنا لا بد أن نسجل ملحوظة مهمة» وهي أهمية أن تكون هناك وسيلة لقياس 
النتائج لأنظمة مختلفة بنفس الطريقة وا ام cob adi‏ عن ا مسطرة 
القياس إن جاز التعبير. 

de ds‏ التشكيل الآلي» تمت تجارب في JS‏ من BM‏ وجامعة كولومبياء وشركة 
RDI‏ وكانت النتائج المعلنة كا هو موضح في الجدول الآتي: 


كل NEC u‏ تشكيل الكلمة عدا 


الحرف الأخير 
نسبة الخطأ 
n E di‏ 
i g ji 2‏ 
3 13 133 


نموذج مقدم من د/ عماد زیتوني مع فريق 2v,X | 70,0 JNA‏ | .43,8 
عمل في IBM‏ سنة 007 


نموذج مقدم من د/ نزار حبش مع فريق ; | 1 l‏ 
CAI‏ رار MP E LAE‏ 2 


Wa lawa MEET م د خس وشواة مع‎ fora 
Y: AX, RDI عمل من شركة‎ 


الجدول ۳-۳: نتائج التتشكيل IBM) QI‏ < جامعة كولومبياء RDI‏ 


ربا تكون هناك أنظمة أخرى أفضل» ولكن لم يعلن عنها ول تحكم على نفس قاعدة 
البيانات. 


eive 
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وقيدو s) SI‏ إن أن iae‏ الررانات قد انحرف cod xs call YAA (de‏ 
و57 ألف كلمة للاختبار. وباختصار قاعدة البيانات وجدنا أن كلات الاختبار 
وكلمات التدريب من نفس الطبيعة ومتقاربة جدا. ولا حاولنا تجربة بعض هذه الأنظمة 
على نصوص أخرى وجدنا أن نسبة الخطأ ربا تصل إلى 75/ أو حتى ۳١‏ في بعض 
الأحيان. 

ولكن لحسن eol‏ فإن تشكيل بنية الكلمة أهم بكثير من تشكيلها الإعرابي» ونسبة 
الخطأ فيه أقل كثيرًا. o3‏ الإنسان العريّ - غير المتخصص في اللغة الآن d-‏ تعد 
(وللأسف) حساسة لأخطاء التشكيل الإعرابي 543 حساسيتها لتشكيل بنية الكلمة. 
فالخطأ في تشكيل بنية الكلمة يغير الكلمة ومعناها تغيرا كبيرا على الأذن» فخذ هذا 
المثال: الفرق بين (CAS C5)‏ فرق كبير. فالكلمة الأولى فعل ماض والثانية اسم» 
وإذا استخدمنا كلمة cano‏ مكان أخرى» فسيضطرب المعنى في أذن السامع كثيراء حتى 
لو Sd.‏ من استنباطه لاحقا. 

desti pU من التطرر‎ dolium ده‎ cole أن هناك تو‎ SIG udo y 
dd , وما شابة من ممشكلات:‎ II جال تعلّم الآلة العميق لل ممشكلة التشكيل‎ 
وني هذه الحالة يُعتبر التص الخام‎ EIE البعضٌ مُعالجة مشكلة التشكيل عبر الترجة‎ 
بعد التشكيل كلغتين» والمطلوب إجراء ترجمة آلية من النص الخام إلى النص‎ (pads 
المشكّل. وفي كل الأحوال تحتاج الوسائل الحديثة والعميقة لتعليم الآلة كميات ضخمة‎ 
من النصوص المشكّلة حتى تتمكن من التعلم وإعطاء نتائج جيدة.‎ 
نحتاجها‎ i SRI طبيعة الموارد‎ - 

dris d ads 000080‏ معام إلى بسر ]رد لكي لص E‏ 
ففي حالة التشكيل الآلي نحتاج إلى مدونة مشكلة بالكامل» أي: كل حرف فيها مشكل؛ 
وليس على تشكيل جزئيٌ لبعض ال حروف التي تفك الالتباس بالنسبة للقارئ العربي. 
ولكي نصل إلى دقة مناسبة نحتاج لمدونة مشكلة كبيرة وتغطى المجالات المطلوب 
التشكيل لنصوصها. وني المجال الواحد قد نحتاج لمدونة بالملايين من الكلمات حتى 
نتمكن من مقابلة معظم الكلمات المستخدمة في المجال» إذ أن أكبر سبب للأخطاء في 


-\\é- 
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الطرق المعتمدة على تعلم الآلة هو عدم رؤيته للكلمة من قبل بالكلية أو مرت عليه في 
المدونة في سياقات مختلفة تمامًا. 

المدونات الكبيرة جدًا o)‏ بعشرات الملايين من الكلمات) والتي يمكن أن تخفض 
نسبة الأخطاء بشكل JU‏ مكلفة soe‏ وفي المقابل لا توجد (حتى الآن) مجموعة 
متكاملة من القواعد التى يمكن الاعتماد عليها لحل المشكلة. وهناك حل وسطء وهو 
s sabes‏ 5-0 مليون كلمة Olis‏ مع بعض القواعد المساعدة في تخفيض 
نسبة الأخطاء. إلا أن القواعد تتطلب الاستعانة بتحليل لغويٌّ مثل المحلل الصرفٌ» 
حتى يمكن أن تبنى القواعد على الشواهد اللغوية في هذا التحليل. 

ولأيّ نظام للتشكيل فعال لا بد من التعامل مع الظواهر اللغوية كثيرة الورود. ومن 
هذه الظواهر: ظاهرة الكلمات الأجنبية والمكتوبة باللغة العربية (مثل أسماء الرؤساء 
بوش وأوباما .. إلخ)؛ هذه الكلهات قد يصل متوسط ورودها لأكثر من ٥‏ في كثير 
من النصوص الحديثة. ولأن معظمها أسماء لكائنات (أسماء أشخاص أو مؤسسات أو 
أماكن.. إلخ) فإنها كثيرة ودائمة التغير. فما ورد منها كثيرًا في المدونة المشكلة يتم حسمه 
كالكلمات العربية؛ وعدا ذلك فإننا نحتاج لبعض القواعد لتعلم لتشكيلها. وهناك 
مدرسة عملية تجمع ما ورد في المدونة من كلمات أجنبية قبل وبعد التشكيل وتستخدم 
واحدة أو أكثر من خوارزمات التعلم UII‏ لتعلم تشكيل مالم يرد في المدونة. 

وفي الختام تجدرٌ الإشارة إلى أن هناك تقدمًا ملحوظا في مجال استخدام الشبكات 
العصبية في تلف ميادين حوسبة اللغات الحية» e‏ في ذلك التشكيل الآلي. ولكن ما 
زالت نتائج الطرق التقليدية تزاحم نتائج الطرق الحديثة» OS‏ الطرق الحديثة في حاجة 
إلى كميات ضخمة من البيانات المشكولة يدويا. وهذا ليس سهلا بالنسبة للنصوص 
المعاصرة. يتضح الفرق حين JUS‏ نصوص تراثية» إذ تعطي الشبكات العصبية نتائج 
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A‏ أفكارٌ £o coe JE n‏ مُستقبلية 
-١ A‏ تصميم مدونة مشكّلة صغيرة نسبيًا؛ ولكن تظل ممثلة جيدة للمجال الذي 
od aua‏ کف کار مواضوعاتها ىق قق lalis‏ أغل نسبة شهول 

لكلات المجال. 

4 - استخلاص مجموعة من القواعد الممكن تنفيذها É plo‏ إن هناك كثيرًا 
من القواعد لا يمكن تنفيذها حاسوبيًا. مثال ذلك: الجملة الاسمية تتكون 
من فا وخر» والخبر مع o la‏ ا معنن هذه قاعدة تحتاج لمعرفة 
معاني الجمل؛ el XT‏ لا؛ وهذا لم نصل له بعد. إن إذا قلنا: إن الصفة تتبع 
الموصوف في التعريف والعدد والنوع» فهذه القاعدة يمكن تطبيقها حاسوبيًا. 
فبالرجوع إلى محلل صرفي للغة العربية» يمكن معرفة كل المطلوب. وبالتالي 
يمكن حسم الصفة بالقواعد. 

K VI وتحليل الأخطاء الناجمة عن المشكل‎ CT دراسة مدونة مشكلة‎ - A 
وضع القواعد التي تقلل هذه الأخطاء. هذا البحث يمكن أن يؤدي إلى‎ 
نتائج أفضل عمليًا من كل الحلول المتاحة. ومن الخبرة في هذا المجال أن‎ 
عددًا قليلاً من القواعد مسئول عن نسبة كبيرة من الأخطاء. وبديهى أن‎ 
ذلك يحتاج إلى تحليل وتصنيف للأخطاء قبل وضع القواعد.‎ 

E, A‏ عمل مجموعة من القواعد التى يمكن استخدامها لتشكيل الكلمات الأجنبية 
الواردة في النصوص الحديثة. هذا البحث يمكن أن يساعد على حسم عدد 
لا بأس به من الكلمات الحديثة. إن هذه دراسة تتداخل فيها الصوتيات 
العربية واللاتينية. 
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مصطلح النقيب في النُصُوص - والبيانات 
بصفة عامة - مأخوذ من مصطلح التنقيب 
في المعادن الثمينة وسط تلال من الأشياء. 
PPA T era‏ كما «e‏ «مارتي 
هيرست» - من جامعة بيركلي بكاليفورنيا في 
٢م‏ - هو استخدام الحاسوب في اكتشاف 


معلومات غير معروفة مسبقا من مصادر متنوعة 
هن (d doing LS coo paid‏ قابا via‏ ائل secu‏ المعادن الثمينة. 
النصوص. ومن هذه المعلومات - مثلا - التعرف على أسباب بعض الأمراض النادرة 
من خلال فحص وثائق العلوم الحيوية المختلفة» واكتشاف البروتينات التي تتفاعل مع 
غيرها من البروتينات الأخرى» وهي خاصية مُهِمّة جداء تؤخذ في الاعتبار عند تصنيع 
الدواء وعند وصف العلاج. 

ويعتبر التنقيب في النصوص أحد علوم الحاسب الحديثة» وترجع نشأته إلى منتصف 
السبعينيات عندما اقترح «جيرارد سالتون» - من جامعة كورنيل - تمثيل النصوص 
المكتوبة باللغات الطبيعية بواسطة متجهات رقمية والتعامل معها بالأساليب الرياضية 
المستخدمة في التعامل مع المصفوفات العددية والأساليب المستخدمة في التعامل مع 
قواعد البيانات النمطية. وقد مكنّ التقدم التكنولوجي هذا المجال من المضي قدما 
خلال العقد الماضي بصورة ملموسة. 

وكانت أبحاث العالم الأمريكي «دون سوانسن» - من جامعة شيكاغو - علامة 
فارقة في مولد علم il‏ في النُصُوص. 

فقد لاحظ «سوانسن» ضعف التواصل العلمى بين المتخصصين في حالة اختلاف 
مجالاتهم العلمية الدقيقة وعدم المعرفة بها يدور à‏ المجالات الأخرىء وبالتالي عدم 
الاستفادة بها. ولذا قام - بالاشتراك مع زميله نيل سالهيسر - ببناء نظام لاكتشاف 
سلاسل من النتائج والآثار السببية من خلال فحص الدوريات العلمية في التتخصصات 
المختلفة. ونتيجة لذلك فقد اكتشف «دون سوانسن» في ۱۹۹۷ أن نقص الماغنيسيوم في 
جسم الإنسان هو من الأسباب الرئيسية للصداع الذي يصيبنا. هذه المعلومة لا توجد في 
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أي كتاب أو دورية علمية ولكن تم استنباطها بواسطة نظام التنقيب بالبحث التتابعيّ 
في دوريات وقواعد البيانات الطبية وفي دوريات ومنشورات المعلوماتية الحيوية عن 
أسباب الأمراض. في حالة أمراض الصداع تم التوصل إلى OE‏ سلاسل سببية من 
خلاها تم الربط بين الصداع وبين نقص ال ماغنيسيوم. 

وجدير بالذكر أن التقنيات والأساليب المستخدمة في التنقيب في الوص تستخدم 
ual‏ في ce‏ أخرى عديدة» مثل مجالات التنقيب في البيانات» ومجالات التعرف على 
الصورء ومجالات التعرف على الكلام» ومجالات التعرف على الكتابة. وبالطبع يفيد كل 
منها الآخر. 

iil Gab‏ في النُصُوص عن البحث في النصوص أو البحث في صفحات 
الإنترنت بواسطة برمجيات ور كات البحث العالمية الشهيرة» مثل: جو جل (Google)‏ 
وياهو (Yahoo)‏ وبينج (Bing)‏ فعند استخدام محركات البحث يبحث المستخدم عن 
شيء معروف قد تم إعداده مسبقا بواسطة آخرين» كأن يبحث عن عنوان شركة تنتج 
منتجًا بمواصفات معينة» أو يبحث عن أول أمين عام للأمم المتحدة» أو عن الدول التي 
انضمّت إليها حديثا خلال آخر ثلاث سنوات» وهكذا. وبالطبع فإن محركات البحث 
تغني المستخدم عن البحث في مئات بل آلاف الوثائق غير ذات العلاقة. 

لتيب في النصُوص هو مجال متعدد التخصصات» يعتمد على علوم استرجاع 
المعلومات والبيانات» وعلوم التنقيب في البيانات العددية» وعلوم الذكاء الاصطناعي 
والتعلم «JI‏ وعلوم الإحصاء والاحتالات» وعلوم معالجة اللغات الطبيعية 
واللّغويات الحاسوبية» وذلك على النحو الموَضّح بالشكل التالي: 
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cesa‏ في الويب الذّكاء الاصطناعيٌ 
والويب JYI‏ والتَعلّم JYI‏ 


الشّكل ٤‏ -7: التخصصات المشاركة في مجال التنقيب في النصوص. 

تطور مفهوم الشقيب في النُصُوص في الآونة الأخيرة ليشمل تطبيقات أخرى غير 
نمطية لا تشملها عر كات البحث» مثل: التصنيف الآلي لآلاف - بل ملايين - الوثائق 
إلى وثائق سياسية» صحية» اجتماعية» رياضية» فنية» وغيرهاء بدون ال حاجة إلى الاستعانة 
بالمختصين؛ ومثل: تجميع النصوص في مجموعات متشابهة)» وتلخيص «QU JI‏ 
والتنقيب في الآراء وتحليل المشاعر» والتصحيح والتصويب الآلي للإجابات ASUNT‏ 
واستنباط المفاهيم» والتعلم الآلي للأنطولوجيات» وغيرها من التطبيقات المهمّة. 

لقد حظيت تقنيات وتطبيقات تصنيف وتجميع الوثائق المتشابهة بالغالبية العظمى 
من النشر العلمي على مدى الأعوام السابقة. فبالإضافة إلى كونها تطبيقات في حد ذاتها 
مثل تصنيف البريد الإلكتروني وتصنيف الأخبارء إلا أا أصبحت مكونًا رئيسيًا في 
كثير من تطبيقات التنقيب في النصُوص كما سيتضح. 
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5l; العالية؛ وال‎ cole ua dM — hed هذا الفصل > بن ومن‎ dote 
بها في الآونة الأخيرة بصورة كبيرة على المستويين - النظري والتطبيقي:‎ ea VI 

-١‏ التجميع والتصنيف. 

-Y‏ تلخيص النصوص. 

-Y‏ استنباط اتجاهات uel I‏ العام cea‏ في الآراء). 
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المبحث الأول 


التجميع والتصنيف 


د 
Ae: en‏ 


١‏ — مقدمة 
؟- نماذج من التطبيقات العملية للتجميع والتصنيف للنصوص. 
۳- خوارزمات التجميع والتصنيف. 

-t‏ خوارزمات التجميع والتصنيف واللغة العربية. 


-\ YV- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


-YYA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


PTS. 
ةمدقم-١‎ 


(Clustering) التجميع‎ -١ s: 
يُمثل تجميع البيانات إحدى تقنيات التنقيب في البيانات والنصوص التي تمكن‎ 
من تقسيم مجموعة كبيرة من البيانات أو فئات من الكائنات إلى عدة مجموعات فرعية‎ 
ذات خصائص متشابهة أو مغزى مشترك. فعلى سبيل المثال يمكن للفرد العادي تقسيم‎ 
والبرازيل إلى ثلاث مجموعات»‎ GUT ا لجاهير التي تشاهد مباراة لكأس العالم بين‎ 
المجموعة الأولى تشجع الفريق الألاني والمجموعة الثانية تشجع الفريق البرازيليء أما‎ 
المجموعة الثالثة فهي من عشاق اللعبة الحلوة ولا تنتمي لآي من الفريقين. وبالمثل أيضا‎ 
يمكن لنا تقسيم رسائل الماجستير التي تمت إجازتها بقسم الحاسب بجامعة القاهرة إلى‎ 
عدة مجموعات تعكس المجالات البحثية لهذا القسم العلمي» مع مراعاة أن هذا التقسيم‎ 

يتم بدون تدخل بشري من المختصين. 


الشّكل £ تقسيم الكائنات إلى مجموعات متشابهة. 


والسؤال المطروح هو: على أي أساس تتم عملية تقسيم البيانات والنصوص إلى 
مجموعات متشابهة؟ وكيف يمكن للآلة القيام ee‏ الأعمال آليا؟ 
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Y , 1‏ التصنيف (Categorization)‏ 
بفرض وجود مجموعة من الفئات أو الأنواع المعروفة مسبقا فإن عملية تصنيف بيان 
ما أو كيان ما أو نص ما تتمثل في اختيار الفئة أو النوع الذي ينتمي إليه هذا النص. فمثلا 
يستطيع القارئ تصنيف المقال الذي يطلع عليه إلى واحد أو أكثر من أنواع Nul‏ 

المعروفة: مقالات سياسية» مقالات أدبية» مقالات فنية» وهكذا. 
مثال آخر: يستطيع البنك تصنيف عمليات استخدام كروت الاتتمان إلى عمليات 
سليمة وعلميات تمت من خلال النصب والاحتيال. 


الشكل ٠-٤‏ : تصنيف المقالات الإخبارية طبقا لموضوعاتها 

يلاحظ هنا أن عملية التصنيف تختلف عن عملية التجميع من حيث فرضية وجود 
أنواع معروفة مُسبقاء أما التجميع فلا يفترض ذلك. 

حقيقة الأمر أننا نارس عمليات التجميع والتصنيف في جميع الأوقات في حياتنا 
اليومية» فعندما نستمع إلى صوت خارج من المذياع فإننا نصنفه إلى صوت ترتيل القرآن 
أو صوت تحليل إخباري أو صوت موسيقى مثلا. وعندما تقابل شخصًا لأول مرة فإنك 
e‏ ستقوم بتصنيفه من حيث المستوى الاجتماعي أو المستوى الثقافي أو المستوى الج الي 
أو المستوى العلمى أو إلى غيره من المستويات» دون الشعور أو تعمد ذلك. وبمقابلة 
أعداد كثيرة من الأشخاص قد تتكون لديك الرغبة في تقسيمهم إلى مجموعات تختلف 
عن التصنيف الشائع بين الأفراد. 
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انظر إلى الصورة التالية» والتي بها جموعة من الأشخاص. كيف يتم تقسيمهم إلى 
O‏ 


نص ما إلى واحدة أو أكثر من الأنواع المعروفة مسبقا؟ وكيف يمكن للآلة القيام ec‏ 
العملة Uf‏ € 


وسؤال آخر مطروح هو: ما هي التطبيقات العملية هذه التقنيات؟ 
قبل الإجابة على هذه الأسئلة يجب علينا تمييز أصناف ونوعية البيانات التي تتم 


عليها عمليات التجميع والتصنيف إلى الأنواع التالية (ويطلق عليها اسم الوسائط 
المتعددة (Multimedia‏ : 


e‏ الأفلام المرئية. 
t‏ الصور والرسوم المتحركة. 
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9 الكلام المنطوق. 

° الكلام المكتوب (النخصوص المكتوبة). 

ف قر dayat‏ هة 

ومع الاختلاف الواضح بين هذه البيانات إلا OE‏ التقنيات المستخدمة في تجميع 
وتصنيف هذه النوعيات المختلفة من البيانات تتشابه إلى حد كبير» بل تتطابق في كثير 
من الأحيان؛ إلا أن الاختلاف الجوهري بينها يكون في طبيعة السَّمات (Features)‏ 
التي يتم التجميع والتصنيف بناءً عليها. 

سوف deze‏ هذا الفصل بالتجميع والتصنيف للكلام المكتوب (النصوص الكتابية)؛ وهو 
الأساس التَظريّ والعَمَلٌ لجميع التطبيقات ال منيثقة عن التنقيب في النصوص TextMining)‏ 


أصبحت منتجات التنقيب في النصوص متاحة الآن للاستخدامات العملية وليست 
مقصورة على مستوى المراكز البحثية» ولا يكاد يخلو تطبيق الآن من استخدام تقنيات 
التجميع والتصنيف؛ ونذكر منها: 

V, Y‏ - تطبيقات فى die‏ الأمن 

مكل التصتيف الكبي لدرجات السرية للوثائق (سري» سري جداء سري للغاية» 
محظورء بدون). 

Y‏ - تطبيقات في Je‏ الطب الحيويّ 

تستخدم تقنيات. التتجميع ا في بناء آلات البحث الدلالية» مثل: 
(GoPubMed and GoPubmed)‏ والتي تستخدم في البحث عن الجينات وعرض 
النتائج في صورة شجرية. 

Y, Y‏ - تطبيقات التنقيب فى الشبكات الاجتماعية 

ويستفاد من هذه التطبيقات في شركات الدعاية والإعلان الانتقائي» كا تستفيد منها 
المؤسسات الأمنية في تتبع الأشخاص من خلال العلاقات الاجتاعية الخاصة بأقرانهم 


—XY Y 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


على الشبكات الاجتاعية. وتطبيقات التنقيب في الآراء على الشبكات الاجتاعية تعتبر 
من الموضوعات الحديثة الجاذبة لكثير من الباحثين لما لها من تأثير مباشر سواء على 


المستوى التجاري أو التكنولوجي. 


Y‏ , £ - تطبيقات في مجال التسويق التجاري 

تستخدم هذه التطبيقات في تحليل العلاقة بين الشركات والعملاء وبناء أنظمة تنبؤ 
مبنية على ذلك. وهناك آلات بحث دلالية غير التى سبق ذكرهاء مثل آلات: Find)‏ 
(TheBest, Hunch, Pikimal‏ وتستخدم في دعم عملية الاختيار التي يقوم بها 
المستخدم عند قيامه بالشراء من خلال الإنترنت. 


-o , Y‏ تطبيقات في المجال الأكاديمي 

تمثل تقنيات التجميع والتصنيف TE‏ النشر الأكاديميةء والتي 
لديها مئات الآلاف أو أكثر من الكتب والمجلات والمنشورات العلمية التي تحتاج إلى 
فهرسة لاسترجاعهاء مع A MI‏ الاعتبار نشأة العلوم والمجالات العلمية الجديدة مما 
يتطلب تحديث الفهارس أولاً بأول. 

لذلك اهتمت بهذا الموضوع مراكز قومية عديدة» مثل المركز القومي للتنقيب في 
النصوص بالمملكة المتحدة (NaCTeM)‏ ومؤسسات نشر عالمية» مثل مؤسسة نشر 
ile‏ «الطبيعة» الشهيرة (Nature Journal)‏ والمعاهد الطبية الوطنية للصحة بالولايات 
Sol‏ ر ر اعات الى Raga col La Bae obl cea‏ جال ترصف 
الوثائق وني مجال بناء واجهات الاستخدام والبحثء مثل مبادرة بناء واجهات مفتوحة 
المصدر مبنية على التنقيب في النصو ص «(OTMI - Open Text Mining Interface)‏ 
ومبادرة تعريف نوع المستند (DTD - Document Type Definition)‏ والتي من 
شأنها توفير إشارات دلالية للآلة في الإجابة على أسئلة محددة وردت في نص الوثيقة. 


٦ , Y‏ - تطبيقات التصنيف الآلي للبريد الإلكتروني 

وتفيد هذه التطبيقات في التعرف وحجب مئات الرسائل الإلكترونية التي تصلنا 
يوميا من مصادر مجهولة أو تحتوي على موضوعات غير مرغوبة فيها. وعموما فإن هذه 
التطبيقات تستخدم في تصنيف الرسائل الإلكترونية إلى بريد مهم جداء وبريد مهم» 
وبريد عادي» وبريد غير مرغوب فيه» وبريد دعائي» إلخ. 
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" , /ا- تطبيقات 2 تجميع نتائج | لبحث في الإنترنت وتصنيفها 

على سبيل المثال» عندما نبحث عن كلمة «خلية (cell‏ تقوم آلات البحث» مثل آلة 
الببحث (Vivisimo)‏ وآلة البحث «Northern Light)‏ بتجميع الآلاف من نتائج 
البحث وتقسيمها آليا إلى بجموعات متشابهة في المجال مثل: الخلايا البيولوجية» والخلايا 
الشمسية» والخلايا الإرهابية؛ Ut‏ يساعد الباحث في الوصول إلى ما يريده من معلومات. 


Y‏ - خوارزمات التجميع والتصنيف 

توجد خوارزمات عديدة لعمليات التجم 
والتصنيف وتختلف من حيث نظرية عملها ودقة 
النتائج التي تصل إليها. منها ما يحتاج إلى تدريب 
هذه الخوارزمات وأكثرها انتشارًا. يمكن وصف 
خصائص ختلفة من خوارزمات المجموعات على 

(Clustering) خوارزمات التجميع‎ - ١“ 

° التجميع الهرمى (Hierarchical Clustering)‏ 
توصف كل مجموعة بأكبر مسافة مسموح بها بين كل عنصر وآخر من عناصرها. يتم 
تخاب الجموعات Ab‏ أسلوئة: 

الأسلوب الأول هو الأسلوب التجميعي حيث يتم اعتبار كل عنصر مجموعة 
قائمة بذاتها ثم يتم دمج هذه المجموعات الصغيرة إلى مجموعات أكبر. وتتوق عملية 
الدمج إذا تم الإخلال بشرط أكبر مسافة مسموح بها. والأسلوب الآخر هو الأسلوب 
التقسيمي حيث يتم وضع جميع العناصر في مجموعة واحدة ثم يتم تقسيم هذه المجموعة 
إلى بجموعات فرعية في حالة الإخلال بشرط أكبر مسافة مسموح بها. 
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* التجميع من خلال حساب مراكز الثقل 
(Clustering means-K) clustering based-Centroid)‏ 
تعتمد هذه الطريقة على تحديد عدد المجموعات مسبقا بواسطة المستخدم» bÉ‏ لكل 
مجموعة مركز ثقل» ويتم توزيع العناصر على كل مجموعة طبقًا لبعد العنصر عن مركز 
الثقل» ثم يعاد حساب مراكز الثقل مرة ثانية» ويعاد توزيع العناصر مرة ثانية وثالثة وهكذا 
طالما هناك تغيير في مراكز الثقل. وتنتهي عملية التجميع مع ثبوت مراكز الثقل الجديدة. 
° التجميع من خلال حساب الكثافة (Density-based clustering (DBSCAN)‏ 
ويتم فيه النظر إلى المجموعة على أنها المساحة ذات الكثافة العالية من العناصرء أما 
العناصر المبعثرة فيتم اعتبارها فواصل أو عبارة عن شوشرة وضوضاء. 
Y‏ , 7- خوارزمات التصنيف (Classifications)‏ (من خلال التعلم) 
تقوم هذه الخوارزمات ببناء ناذج التصنيف من خلال دراسة مجموعة من الأمثلة 
لعدة فتات معروفة مسبقا. وبواسطة هذه الناذج يتم تصنيف العناصر الجديدة التي لم 
تسبق رؤيتها. وأشهر هذه الخوارزمات: 
* آلة الدعم الموجهة (Support Vector Machine)‏ 
° الشبكات العصبية (Neural Networks)‏ . 
0 قا لأقر ب 4-1 (Nearest Neighbors-k) òl‏ 
* طريقة بايز المبَسّطة .(Naive Bayes)‏ 
* شجرة القرار .(Decision Tree)‏ 
° شبكات (Bayesian Networks) pL‏ 


5 - خوارزمات التجميع والتصنيف واللغة العربية 

تعتمد جودة التجميع والتصنيف على اختيار واستخلاص ملامح/ سات العناصر 
التي تتم تغذيتها للخوارزمات المذكورة سابقا. 

يوجد اتجاهان لأخذ خصائص اللغة العربية في الاعتبار عند بناء التطبيقات الخاصة 
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الاتجاه الأول هو استغلال الخوارزمات التي تم تطويرها للعمل في بيئة اللغة 
الإنجليزية بدون تغيير» ويتم التركيز على اختيار السمات التي تأخذ في الاعتبار 
خصائص الصرف والنحو العربي. 

والاتجاه الآخر (وهو التوجه ا حاليّ)؛ يتمثل في الخوارزمات التي تم تطويرها للعمل 
في بيئة اللغة الإنجليزية من خلال تعديل المعادلات المستخدمة داخل هذه الخوارزمات 
أثناء حساب المسافات بين العناصر لتأخذ في الاعتبار خصائص اللغة العربية. المثال 
التالي يوضح أوجه الاختلاف في التعامل بين النص الإنجليزي والنص العربي عند 
تطبيق خوارزمات التصنيف؛ والمطلوب بناء برنامج قادر على: تحديد إلى أي المدارس 
الشعرية تنتمى قصيدة شعرية معينة» علا بأنه لدينا أمثلة عديدة من القصائد التى تنتمى 
o9‏ درف dx‏ ا 
مدرسة البعث والإحياء الكلاسيكية 
مثال ١‏ 


Y Ji 


مثال Y‏ إلى أي نوع من المدراس الشعرية العربية في 
مثال £ العصر الحديث تنتمى هذه القصيدة الشعرية 


EHI 


مدرسة البعث والإحياء الكلاسيكية ul‏ بليت بأربّع ما سلطوا 


إلا gau Ja‏ وعنائي 
مثال ol YY‏ والدنيا ونفسي وال حوى 
مثال YY‏ كيف احلاص gis s‏ أعدائي؟! 
مثال YY‏ 


Y: مثال‎ 


En 


الشّكل 4 -5: مثال يوضح أهمية أخذ خصائص اللغة العربية في الإعتبارعند بناء 
تطبيقات التنقيب في النصوص العربية 

di‏ القصريدة ال 

أحد السّمات التي يتم تغذية خوارزم التصنيف بها يتمثّل في الأوزان التي جاءت 
عليها الأفعال داخل القصيدة» وهو ملمح يختص باللغة العربية فقط. 

في حالة القصيدة الإنجليزية» يمكن الأخذ في الاعتبار ملامح أخرى تختص باللغة 
الإنجليزية» مثل مدى استخدام الصيغ المختصرة (Yr instead of Your)‏ كما هو 
مستخدم في قصائد JP‏ الأسود .‘Black Mountain‏ 
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الملبحث الثاني 


تلخيص النصوص 


-١‏ أنواع التلخيص الآلي. 

VI قياس جودة التلخيص‎ -Y 
JYI أساليب التلخيص‎ -۳ 

5 - نماذج من أنظمة التلخيص الآلي. 
-o‏ الخلاصة. 


1۳۷ - 
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مع تزايد إنتاج الوثائق الإلكترونية بصورة تصاعدية وإتاحتها على شبكة الإنترنت 
كل يوم» كان من الضروري العمل على إيجاد أنظمة 
تساعد في تلخيص واستخلاص محتوى هذه الوثائق 
والاستفادة من المعلومات الموجودة بها. ومن OUS‏ 
هذه الأنظمة توليد ملخصن سد أو جموعة من 
المستندات» أو تلخيص ila‏ طويلة» مع حذف 
المعلومات الزائدة والمكررة والحدٌ من التفاصيل. 
عندما نبحث عن معلومة أو بيان على الإنترنت باستخدام محركات البحث» ففي معظم 
الأحوال يقوم محرك البحث بالإفادة بأن هناك مئات الآلاف من الوثائق التي تحتوي على 
الكلمات الحاكمة التي تعبر عن المعلومات المطلوبة» ويقوم باختيار وإظهار عدد قليل 
منهاء في حدود العشرات» حيث يتم اختيارها وترتيبها بناء على خصائص لا ترتبط 
بالمعنى أو المحتوى النصي للوثيقة. وبالطبع لا يستطيع القارئ الاطلاع على كل أو حتى 
جزء صغير منها. تساعد أنظمة تلخيص النصوص في تلخيص هذه الوثائق وعرض هذه 
المللخصات حيث يستطيع القارئ أن يحدد الوثيقة أو الوثائق التي يتفحصها تفصيليا. 
كذلك يمكننا أن نتعرف على ملخص الموضوعات التي تداولناها مع أحد الأشخاص 
أو إحدى الجهات من خلال البريد الإلكتروني خلال العام الماضي مثلا. 

مثال آخر يتمثل في عرض ملخصات الأخبار على أجهزة التليفونات المحمولة حيث 
شاشتها الصغيرة تجعل من غير الملائم عرض الخبر بالكامل. 

ويعرف ملخص النص بأنه الموجز الذي يتم إنتاجه من واحد أو أكثر من النتصوص» 
ويحتوي على نسبة كبيرة من المعلومات الموجودة في النص الأصلي ولا يتعدى حجمه 
نصف النص الأصل. 
كيف تتم عملية تلخيص النصوص؟ 

قبل الدخول في شرح تقنيات التلخيص الآلي 
للنصوص.. هناك بعض الأسئلة التي تطرح نفسها مثل: 

-١‏ أي الأنواع من التلخيص يحتاجها المستخدم. 

-Y‏ كيف نقيس جودة التلخيص الآلي. 
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Y‏ - أنواع التلخيص الآلي 

يمكن النظر إلى توعية التلخيصض من عدة زوايا ختلفة. فمن حيث الغرض منه: 
هناك تلخيص معبر عن النصء وهناك تلخيص كمؤشر عن نوعية النص. النوع الأول 
هو الأكثر دقة» أما النوع الآخر فيستخدم للتصنيف الآلي للنص. 

ومن حيث طبيعة الملخص الناتج؛ هل هو أجزاء مستقطعة من النص الأصلي أم هو 
إعادة صياغة للنص الأصلي محتفظا بمعناه ولكن في سطور أقل بنسبة LA‏ مثلا. 

ومن حيث رغبة المتلقي» هل الملخص يعكس رؤية النص الأصلي أم يعكس ما 
مهتم به القارئ» كا تعتمد طبيعة التلخيص الآلي على الشخص المتلقي للمعلومة» فمثلا 

ومن حيث مصدر النصوص المطلوب تلخيصها ومن حيث اللغة المكتوبة بهاء de‏ 
المصدر وثيقة واحدة أم عدة وثائق» وهل المصادر مكتوبة جميعا بنفس اللغة (العربية 
مثلا) el‏ بعدة لغات ختلفة. 


طبقا لنوع التلخيص» هناك أسلُوبان رئيسيان للتلخيص الآلي: أسلُوب استخلاص 
عدد محدود من الجمل من النص أو النصوص التي يتم اختيارها طبقا لمعايير معينة» 
وأسلوب إعادة صياغة النص بجمل في الغالب تكون جديدة ومختصرة يتم الوصول 
إليها من خلال تفهم النص أو النصوص الأصلية. ونظرا لصعوبة عمليات فهم 
النصوص ونجاحها في coUe‏ تخصصية محدودة» فإن أسلوب استخلاص عدد محدود 
من الجمل من النص هو الشائع حاليا في مجال تلخيص النصوص. 


Y‏ - قياس جودة التلخيص الآلى 
تقاس جودة التلخيص من خلال عنصريين أساسيين: 
Y‏ - نسبة ضغط النص: ويعبر عنها بطول الملخص مقارنة بالنص الأصليء 
ويقصد بالطول هنا عدد كلمات أو عدد الجمل أو عددالفقرات الموجودة 
بالمللخصء وهذه النسبة يسهل حسابها من خلال معادلات بسيطة. ونسبة 
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ضغط النص عادة يتم تحديدها أو اختيارها مسبقا بواسطة المستخدم قبل 
تنفيذ عمليات التلخيص. 


-Y Y‏ نسبة الاحتفاظ بالمعلومة. 

ولكن: 

كيف نحدد ما إذا كان الملخص قد احتفظ بكامل المعلومة الأساسية الموجودة في 
النص الأصلي أم لا؟ وما هي نسبة الاحتفاظ؟ 

توجد عدة طرق للتعامل مع هذه المعضلة الكبيرة: 


الطريقة الأولى: تعتمد على فحص ناتج التلخيص والحكم على جودته بواسطة 

المختصين» وبالطبع نتيجة الحكم تختلف من شخص إلى آخر. 

الطريقة الثانية: تعتمد على حساب عدد مقاطع الكلمات المشتركة بطول معين 

Us j‏ للتحو العَدَدِيّ (N-gram)‏ بين ناتج التلخيص JYI‏ وبين الملخصات التي 

تم إعدادها مسبقا بواسطة مجموعة من الأشخاص» وبدون الأخذ في الاعتبار 

موقعها داخل النص. كلما زاد عدد التقاطعات المشتركة كلا čel‏ ذلك مؤشرٌ 

Meum 

الطريقة الثالثة: Jam‏ على نظرية «كلود شانون» المعروفة باسم «نظرية 

المعلومات»؛ وتستخدم في ضغط البيانات عند نقلها على شبكات الاتصال من 

مكان إلى آخر بغرض سرعة نقلهاء ولكن مع القدرة على استرجاع البيانات 

الأصلية الكاملة من البيانات المضغوطة بعد استقباها. 

الطريقة الرابعة: تعتمد على الاستعلام» وتعمل كالآتي: 

يقوم مجموعة من الأشخاص بقراءة النص الأصلي للوثيقة المراد تلخيصها ثم 

يقومون بوضع مجموعة من الأسئلة تعكس أهم عناصر النص الأصلي. 

- إجابة الأسئلة بدون الاطلاع على أي شيء ( لا الوثيقة الأصلية ولا الملخص 
الآلي) ويطلق على هذه الإجابة مصطلح «خط الأساس». 
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- إجابة الأسئلة بعد الاطلاع على الملخص الآلي. 
- إجابة الأسئلة بعد الاطلاع على الوثيقة الأصلية. 
وتحتسب جودة التلخيص الآلي (نسبة الاحتفاظ بالمعلومة) بنسبة الإجابات 
الصحيحة التي أجابها المجموعة الثانية من الأشخاص بعد الاطلاع على الملخص QVI‏ 
مقارنة بالإجابات قبل وبعد الاطلاع على النص الأصلي للوثيقة. 
* الطريقة الخامسة se YU‏ على تصنيف نتائج الملخص الآلي» وتعمل كالتالي: 
- يتم تجميع ٥٠٠٠‏ مقالة إخبارية من خمسة coUe‏ مختلفة (صحة» سياسة» 
C...‏ بواقع ٠٠٠١‏ مقالة لكل جال. 
يقوم الملخص JYI‏ بتلخيص هذه المقالات الإخبارية. 
- يقوم مجموعة من الأشخاص (بدون الاطلاع على المقالات الأصلية) 
بتصنيف الملخصات إلى المجالات المختلفة. 


- يتم حساب نسبة أعداد الملخصات التي تم تصنيفها بصورة صحيحة 
متوافقة مع تصنيف أصل المقالة. 
- يتم حساب نسبة أعداد الملخصات التي تم تصنيفها بصورة خاطئة مقارنة 
مع تصنيف أصل المقالة. 
= يتم حساب جودة التلخيص (نسبة الاحتفاظ بالمعلومة) بدلالة النسب 
المحسوبة أعلاه. 
في أغلب الطرق السابقة يستخدم مقياس (ROUGE)‏ ومقياس (measure-F)‏ 
للتعبير عن جودة التلخيص. 
وبالطبع فإن التحدي الرئيسي لعمليات التلخيص هي الوصول إلى نسبة عالية من 
الاحتفاظ بالمعلومة» وفي نفس الوقت استخدام نسبة ضغط كبيرة. 
GU;‏ الآن إلي توضيح كيفيّة إنجاز عمليات التلخيص الآلي. 
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-v‏ أساليب التلخيص الآلي 
يمكن تقسيم أساليب التلخيص MI‏ إلى المجموعات التالية: 
-١‏ أساليب إحصائية ( أساليب تعلم الآلة). 
؟- أساليب معالجة اللغة الطبيعية (على المستوى الصرفي والنحوي). 
-Y‏ أساليب المعالحة الدلالية وأساليب شبكات الكلات. 
٤‏ - أساليب الحسابات المرنة» مثل: الشبكات العصبية» الخوارزمات الجينية» المنطق 
الفازي» وذكاء الأسراب. 


co LATI - v‏ لحان ل ا 
يتصف الأسلُوبٍ الإحصائي بأنه عند اختيار ال ْمَل التي 55S‏ ملخص النص لا 
يتم النظر إلى أي تحليلات لغوية» مثل التحليل الصرفي أو النحوي أو الدلالي لمحتويات 

الوثيقة» ولكن يؤخذ في الاعتبار بعض أو كل العناصر التالية: 

pH .‏ التي تحتوي على كلمات ذات معدل تكراري die‏ في النص. 

O‏ العبارات المميزة. 

K *‏ التي تقع في عناوين الوثائق. 

* الجمل التي تقع على رأس الفقرات والأجزاء داخل النص. 

* موقع الجملة داخل النص. 

* طول الجملة (عدد كلماتها). 

وعادة تُعطى الأولوية للجُمَل التي تقع في عناوين الوثائق وللجُمل التي تحتوي على 
كلمات ذات معدل تكراري die‏ في النص. 

v‏ 7- الأسلُوب اللغوي لعملية التلخيص 

هنا يتم الأخذ في الاعتبار الخصائص اللغوية للنص المراد تلخيصه. ويتكون من 

» التعر ف على موضوع النص | (Topic Identification)‏ . 
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° التفسير (Interpretation)‏ 
* توليد الملخص (Generation)‏ 


ونستعرض فيا يلي كل مرحلة من هذه المراحل: 


مرحلة التعرف على موضوع النص 

ويتم التعرف على موضوع النص بمجموعة من الطرق» منها: طريقة بنية الخطاب 
«(Discourse Structure)‏ وطريقة التسلسل الملعجمي «(Lexical Chains)‏ وهي 
ss MI‏ شيوعا الآن: 


يقة بنية الخطاب: ويقصد بها اكتشاف مجموعة الجمل التي تغطي سياق النص؛ 
ولتوضيح ذلك نفترض X, UT‏ تلخيص النص التالي: 


- توفير أجهزة رئيسية وأجهزة شخصية مع ملحقاتها (طابعات) وفقا للتقنيات الحديثة ومتطلبات العمل. 

-تم استلام برامج النظم المالية بعد تطويرها ومراجعة تطببقاتها SU‏ من مطابقتها لاحتياجات القطاع 

المالي من إجراءات وقواعد وتم التطبيق والاستخنام الفعلي لتك النظم بجميع تطبيقاتها اعتبارا من 

.19/5/2004 

- توفير خدمة الانترنت للموظفين (جاري العمل على توفير خدمة 61 لتشغيل خدمة الانترنت من 
المتزل). 

- قامت إدارة الشئون الإدارية بتزويد إدارة نظم المعلومات ببياناتها وذلك لوضعها على صفحة 
الانترنت. ميكنة انظمة وبرامح الهيئة الإدارية والمالية. 

- تم تركيب أجهزة اتصال وحماية (داخلية وخارجية) بالإضاقة إلى الحماية من الفيروسات. ولم يتم 
تلام دليل )222 


- تم البدء في إدخال بياتات الموظفين من واقع ملفاتهم وبلغت نسبة النجاح (9665). خدمة الانترنت: 
كما تم عمل البنية التحتية لشبكة الحاسب الآلي وتوفير خدمة الاتصال بالاتترنت. 


ويتم استخلاص الجمل التي تغطي سياق النص» وهي الجمل التي تجيب عن الأسئلة 
من نوعية: Bb‏ حدث» لماذا حدث» كيف حدث» متى حدث» من فعل» وهكذا. 
فكلمات مثل: توفير» تزويد» إدخال» تشغيل» وفقاء اعتبارا من.. تساعد في تحديد الجمل 
التي تغطي سياق النص. 

ويلعب التعرف على الكائنات الاسميّة» مثل أسماء الأشخاص وأسماء الجهات» 
دورًا كبير في إنجاح هذا الأسلوب من التلخيص. 
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يقة التسلسل المعجمى: يقصد مها استخلاص سلاسل الكلءات ذات الصلة في 

ej uad Jal امخورية‎ cole a M هذه الطريقة إل التغرف عل‎ cias sadi 
تطوير هذه الطريقة في أوائل التسعينيّات بواسطة موريس وهاريس بناء على أبحاث‎ 
INCERTUS TM لسع ات تخ رك‎ EO 

وتعتمد هذه الطريقة على مفهوم التماسك النصي الذي يربط الجمل بعضها ببعض 
من خلال أدوات لغوية مثل حروف الإشارة؛ الضمائر» الاستبدال» الحذف, الاقتران 
وغيرها. 

بصورة «s ol‏ فإن السلاسل المعجمية تمثل التتبع لكائن eal‏ محدد داخل النص» 
هذا الكائن الاسمي ب desi Hecate pus cession‏ 
يعود عليه . ولا يشترط ذلك أن يكون في نفس الحملة ولا حتى ذه نفس المقطع من النص. 

وهنا تبدو مشكلة الالتباس؛ فتحديد «مَن يعود على (Gs‏ ليس بالمسألة السهلة 
بالنسبة للحاسب حيث يتطلب فك الالتباس اللجوء إلى قواعد اللغة وإلى المعرفة العامة 
والتخصصية. وكذلك مشكلة الالتباس التي تنشأ نتيجة المعاني المتعددة للكلمة وكيفية 
all js‏ ال لكا ور كلك من الات à ge, AT‏ 

وبهذا فإن مرحلة التعرف على موضوعات النص تنتهي مع الوصول إلى مجموعة 
السلاسل اللغوية التي تم تحديدها في النص» ونأتي بعد ذلك إلى مرحلة التفسير. 

مرحلة التفسير 

يُقصّد بالتفسير في هذا السياق تخصيص ساسلة واحدة ذ فقط وبالضبط لكل تواجد 
لكائن اسمي في النص. Sue xad aal eda‏ زمر عه AU‏ الكش 
لعدد الأساء الموجودة بالنص) إذا أخذنا في الاعتبار es‏ الاحتمالات المائل للتفسير 
والوصول إلى التفسير الصحيح, أو على الأقل التفسير الأفضل. ويقصد بالأفضل هنا 
التفسير الذي يغطي أطول السلاسل المعجمية المستخرجة. 

وللتغلب على مشكلة التعامل مع جميع الاحتالات الممكنة فقد اقترحت رجينا 
بارزيلاء ومايكل الحداد وسيلبر ومككوي ربط السلسلة المعجمية بمفهوم معين وربط 
هذا المفهوم بمعنى مأخوذ من نظام ووردنت (WordNet)‏ وهي قاعدة بيانات معجمية 
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للغة الإنجليزية حيث يتم تجميع الكلمات الإنجليزية في مجموعات من المترادفات تدعى 
c(synsets)‏ وتوفر تعريفات قصيرة dole‏ وتسجل العلاقات الدلالية المختلفة بين 
مجموعات المترادفات المختلفة. كذلك تعتمد طرق «رجينا بارزيلا» و «مايكل الحداد» 
و«سيلبر) و «مككوي) على استخدام معربات سطحيّة بسيطة وأدوات لتعيين أقسام 
Pu‏ نونات) للكلمات للتعرف على الأسماء. وتأخذ طريقة «سيلبر» و «مككوي» 
ASSI. sa dia fas‏ ا Oe‏ عمد adt do oi‏ رفن ن 

TIN e‏ ا 

تنتهي eos‏ التفسير بتحديد hai) ZI‏ أقوى) السلاسل المعجمية في النص 
بناء على col‏ تقييم يأخذ في الاعتبار عدد المرّات التي 38 فيها الكائن الاسميّ 
وعلاقاته السابقة مع باقي كلمات السلسلة. ومن الجدير بالذكر أن هناك أساليب كثيرة 
لتقييم السلاسل المعجمية المستخرجة من النص. فعلى سبيل المثال» يمكن الأخذ في 
الاعتبار عناصر غير لغوية» مثل حجم ولون وموقع كتابة الجمل داخل النص كدلالة 
لأعمية السلسلة. بعد ذلك تأتي مرحلة توليد الملخص. 

مرحلة توليد الملخص | (Generation)‏ 

بعد تحديد I‏ (أفضل» أقوى) السلاسل المعجمية في النص يتم اختيار جملة واحدة 
من كل منها؛ ولكن أي جملة يتم اختيارها؟ 

إحدى البدائل لكل سلسلة قوية أن يتم اختيار أول جملة تشير إليها وتضمينها 
(بالترتيب) في الملخص. بديل آخر لكل سلسلة قوية Ob‏ يتم اختيار أول ila‏ تشمل 
الممثل الاسمي الذي يعبر وترتبط به السلسلة وتضمينها (بالترتيب) في الملخص» مع 
ملاحظة أن الممثل الاسمي هو المعنى المناظر المأخوذ من شبكة الكلمات (WordNet)‏ 
والذي يعبر وترتبط به السلسلة. 

للشرح التفصيلي لاستخدام السلاسل المعجمية في التلخيص يُقَضَّل الرجوع إلى 
المقالات المرجعية التالية: 


1. “Lexical cohesion computed by thesaural relations as an indicator 
of the structure of text" by Morris, J. & G. Hirst, 1991. 


2. "Using Lexical Chains for Text Summarization", by Regina Barzi- 
lay & Michael ElHadad, 1997. 
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3. “Efficiently Computed Lexical Chains as an Intermediate Rep- 
resentation for Automatic Text Summarization”, by Silber, G. & K. 


McCoy, 2002. 

Y Y‏ أسلُوب الجمع بين تعلم الآلة والمعالجة اللغوية 
في هذا الأسلوب تتم عملية التلخيص في ثلاث مراحل: 
O‏ قراءة الوثائق. 
فهم الوثائق من خلال بناء التمثيل الدلالي لمحتويات الوثيقة. 

* توليد الملخص من هذا التمثيل. 

ونظرًا OM‏ عملية فهم وتوليد التمثيل الدلالي الغني للنص معقدة للغاية وليست 
ممكنة حتى COMI‏ فإن معظم نظم التلخيص تكون من نوع استخلاص عدد محدود من 
الجمل من النص الأصلي مع إعادة صياغة هذه الجمل لحذف الحواشي منها. ولكن 
يعيب هذه الطريقة أن الملخصات المستخرجة من النص تكون غير متماسكة في العادة» 
ولكن يميزها أنها غير مكلفة الحل ولا تتطلّب أنطولوجيات معاونة. 

يعمل أسلوب الاستخلاص كما هو موضح بالشكل التالي: 


A "m Qon الوثائق‎ 


کس صم 


2 مجموعة‎ -a 


. NF Y 


s LC 
LÀ 


جملة مخدارة من المجموعة 


مجموعة ن 


AJ 


الشّكل 4 -5: كيفية عمل الملخص الآلى للنصوص باسلوب الاستخلاص. 
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. بعد قراءة الوثائق ق الأصلية» يتم تة تقسيم الجمل الموجودة إلى مجموعات من الجمل 
cR UA‏ ويطلق على هذه الخطوة «عملية التجميع» (Clustering)‏ . 

* يتم ترتيب المجموعات الناتجة وهي في العادة كبيرة العدد» حيث يعكس 
الترتيب أهمية المجموعة. 

9 يتم اختيار جملة واحدة من المجموعات الأولى حسب ترتيب المجموعات. 

٠‏ في العادة تحتوي ا لحمل المختارة على حواش وتكرارات يمكن الاستغناء عنهاء 
LU‏ يتم إعادة صياغة الجمل من خلال حذف هذه الحواشي» وهنا يأتي دور اللغة 
في إعادة صياغة الجملة. 


٤۳‏ - اسلوب شبكات الكلمات 

يُستخدم هذا الأسلُوبء المقترح بواسطة «كاتجا فيلبوفا» - من جوجل - في دمج 
برع حمل لعو sels dire‏ . ويعتمد على بناء شبكة بين كلمات 
مجموعة من الجمل المراد اختصارها حيث SE‏ كل كلمة بعقدة داخل الشبكة؛ والخطوط 
التي تصل الكلمات تمثل تتابع الكلمات داخل كل جملة» مع ملاحظة أن الكلمات المكررة 
بن oot‏ يغبا ع للق Rs‏ 

يبدأ بناء الشبكة للجملة الأولى في صورة سلسلة من العقد بواقع عقدة لكل كلمة 
ل all e ALI‏ مع en ille d‏ ينار est 9 Lee aiios dde‏ كلمانا 
مع كلمات الجمل السابقة إذا لم يكن هناك التباسٌ في المعنى. ويتم بناء عقد لحروف الجر 
وأساةالأشارة أ ا م شروط عن 

مثال لشبكة كلمات تناظر أربع جمل ختلفة عن نة نفس الموضوع: 

. أراد محمد عمرو زيارة سوريا الشهر الماضي لكنه أجل خططه حتى يوم الاثنين 

الماضي. 

* قام محمد عمرو بزيارة دولة سوريا الشقيقة يوم الاثنين. 

x‏ زار محمد عمرو نائبا عن الرئيس محمد مرسي سوريا يوم الاثنين الماضي. 

* الأسبوع الماضي زار وزير الخارجية السيد عمرو المسؤولين السوريين. 
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الشّكل ٤‏ -۷: يوضح أسلويًا لشبكات الكلمات 


وهذا الأسلُوب في الدمج يعتمد بصورة كبيرة على المعالجة اللغوية والتعرف على 
مواطن الالتباس في الجملة والتعرف على حروف الربط والإشارة وربطها بمدلوها. 


-e, Y‏ أساليب الحسابات المرنة لتلخيص النصوص 

يندرج تحت هذه الفئة عدد من التقنيات التي تحاول أن تحاكي الكائنات الحية في 
التفكير أو في التطور أو تسم بِالعْمُوض في التعبير. 

فمن التقنيات التى تحاكى الكائنات الحية في التفكير نجد شجرة القرارات والشبكات 
ال ركا الراب ردخ oli‏ الى قا cott‏ اق التطور ded‏ 
ciel cota‏ وس coll‏ الى سلب SEU‏ عى جد E‏ 


وتعتمد معظم هذه الأساليب على إيجاد مجموعة من الخصائص لكل جملة ثم 
استخدامها كبارومترات يتم تحديد مدى أهمية الجملة للاحتفاظ بها في ناتج التلخيص. 


والخصائص التالية تعد الأكثر انتشارا من حيث الاستخدام في هذه الأساليب: 


* موقع الجملة في النص. 
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* مدى تشابه الجملة مع عنوان النص. 
* مدى محورية الجملة (ويمكن قياسها بمدى احتوائها للكلمات الأكثر تكرارا في 
النص أو بطرق أخرى). 


* مدى احتواء الجملة على كلمات سلبية مثل فقير» مرهق. 

* مدى احتواء الجملة على كيانات اسمية» مثل رئيس الدولة. 

* مدى احتواء الحملة على بيانات عددية. 

* طول الجملة مقارنة بباقي الجمل في النص. 

ففي حالة الشبكات العصبية» على سبيل المثال» يتم بناء الشبكة من ثلاث طبقات. 
الطبقة الأولى تتكون من مجموعة عقد تحمل قيم الخصائص المختارة للجملة Yee)‏ 
...خ۷ ...). الطبقة الثانية تتكون من مجموعة من العقد ويطلق عليها الطبقة المخفية» 


وعدد العقد بها أقل من عدد عقد الطبقة الأولى ويتم التوصل إليها بالتجربة والخطأ. 
الطبقة الثالثة والأخيرة مكونة من عقدة واحدة وهى التى تحدد مدى اختيار الجملة 


ضمن النص المراد تلخيصه. 


الشّكل ؛ -۸: شبكة عصبية لها V‏ مدخلات تحدد خصائص الجملة وها خرج واحد يحدد مدى أهمية الجملة 
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والعلاقات والدالات الحسابية التي تربط قيم العقد في الطبقات المختلفة يتم تعلمها 
من خلال المئات بل الآلاف من أمثلة التلخيص اليدوي. 

وكا د ا ede oj‏ الات والأسالبب adi‏ جص التصوضن 
تستخدم أيضا في باقي جالات الق TRU UE‏ ومجاللاات «s ol‏ مكل الب 
في البيانات ومجالات التعرف على الصور والتعرف على الكلام والتعرف على ALII‏ 


I نماذج من أنظمة التلخيص‎ - ٤ 

يوجد OYI‏ العديد من أنظمة التلخيص على المستوى التجاري» ولكن معظمها يخدم 
اللغة الإنجليزية وقليل منها يخدم اللغة العربية. وجدير بالذكر أنه لا يزال هناك الكثير 
من البحث والجهد المطلوبين لرفع جودة هذه الأنظمة» وبالأخص بالنسبة لتلخيص 
النصوص العربية. 


-١ 5‏ نمافج من أنظمة التلخيص للنصوص الأجنبية 

(SweSum) ° 

هو أول نظام لتلخيص النَص للغة السويدية. وهو يلخص نصوص الأنباء السويدية 
المكتوبة بتنسيق (HTML)‏ على شبكات الإنترنت. ناتج التلخيص عبارة عن 
عددمن zu‏ *0 من الكلمات الحاكمة. وتتراوح دقة التلخيص للنصوص الصحفية 
من /5٠‏ إلى AE‏ وذلك للنص الأصلى الذي يصل طوله في المتوسط إلى ١18١‏ كلمة. 
ونظام (SweSum)‏ متاح أيضا cx‏ الدنمركية والفارسية والنرويجية والإنجليزية 
والإسبانية والفرنسية والإيطالية واليونانية والألمانية. 

ويستند (SweSum).‏ على الأساليب الإحصائية واللغوية وأساليب الذكاء 
الاصطناعي. e,‏ عملية التلخيص واختيار الكلمات الرئيسية من خلال قيام النظام 
بحساب تكرار الكلمات الرئيسية في النص الصحفي وموقع هذه الجمل في النص. ويأخذ 
في الاعتبار حجم حروف الكتابة هذه الكلمات» وهل هي موجودة بالفقرات الأولى في 
النص أم لاء وما إذا كانت القيم الموسومة C3‏ عددية أم لا. 
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(SUMMARIST) ٠ 


هو حاولة لتطوير تكنولوجيا قوية للتلخيص cul‏ الاستخراج للإفادة في 
عالات البحث العلمي» ومن ثم مواصلة البحث وتطوير تقنيات الوصول للنظرة 
التجريدية للنص. هذا العمل يوائم بين عمق التلخيص مقابل متانة التلخيص (ويقصد 
با متانة القدرة على التعامل مع النصوص التي تشتمل على أخطاء لغوية). فيكون التركيز 
على استخدام أنظمة تحليل وتفسير المدخلات بصورة عميقة lo‏ يكفي لإنتاج ملخصات 
جيدة» أو على النصوص المقيدة بصورة أو بأخرى ولكن لا يمكن تحليلها بطريقة عميقة 
با يكفي لصهر المدخلات بصورة صحيحة. وبالتالي تؤدي فقط إلى استخراج موضوع 
النص. 

حتى الآن» ينتج نظام (SUMMARIST)‏ ملخصات الاستخراج في حمس لغات 
(حيث تم ربطه بمحركات الترجمة هذه اللغات في نظام MuST‏ للترجمة الآلية). العمل 
المهمّة في النص أو لبناء مجموعة كبيرة من قواعد المعرفة المطلوبة لعمليات التلخيص 
القائمة على الاستدلال والتجريد للنص الأصلي. 

(LexRank Summarizer) * 

LexRank‏ هو نظام لتلخيص النصوص الإنجليزية تم تطويره في جامعة ميتشجان 
الأمريكية» وهو متاح للعمل على شبكة الإنترنت عبر الموقع: 
http: / /clair.si.umich.edu /clair /lexrank‏ 

يمكن للمستخدم كتابة النص المراد تلخيصه أو تحميل النص من ملف سبق إعداده. 
ويعتمد النظام على الأساليب الإحصائية والرسوم الشبكية. يقوم النظام بتحويل الجمل 
النصية إلى متجهات عددية ثم يحسب قيمة الزاوية بينها (Similarity Cosine)‏ (وهي 
إحدى طرق حساب التشابهات بين جمل النص) ثم يقوم بعد ذلك بحساب مصفوفة 
الجوار e‏ الجمل الموجودة بالنص. gus‏ ناتج التلخيص من خلال الاحتفاظ 
بالجمل ذات أعلى قيم بداخل هذه المصفوفة. الشكل التالي يعبر عن علاقة الجوار 
والتشابه في نص مكون من إحدى عشرة جملة يرمز ها داخل الرسم بالرموز SNO,‏ 
.SNI, SN3, ... , SN10‏ 
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الشّكل ٤‏ -4: مصفوفة جوار JA‏ عنها برسم شبكي 

(Intellexer Summarizer) * 

وهو نظام للتلخيص الآلي» يستخدم أساليب معالجة اللغات الطبيعية بكثافة» فيقوم 
بالتحليل الصرني والنحوي والدلالي للنص كجزء متكامل. وهو متاح للاستخدام من 
خلال الموقع التالي على شبكة الإنترنت: 

http: / /www.fileguru.com /Intellexer-Summarizer- SDK /info 
بعض الأنظمة التي تعمل من خلال شبكة الإنترنت:‎ ° 
٠ Automatic Text Summarizer 


http / /:www.makeuseof.com /dir /automatic-text- 
summarizer-text-summarization-tool / 


٠ The Open Text Summarizer 


http: / /libots.sourceforge.net / 


٠ Kify Online Text Summarizer 


http: / /text.kify.com / 


°  [ntellexer Summarizer 3.1 
http: / /summarizer.intellexer.com / 


٠ PERTINENCE SUMMARIZER 
http://www.pertinence.net/ps/summarizer_url.jsp?ui.lang=en 
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e  QuickJist summarizer 1.2 
http://www.filecluster.com/Internet/Browser-Tools/Download- 
QuickJist-summarizer.html 


٠ Sinope Summarizer 


http://www.sinope.info/en/Download 


٠ Copernic Summarizer 


http://www.copernic.com/en/products/summarizer/ 


٤‏ و Y‏ نماذج من أنظمة التلخيص للنصوص العربية 


. نظام (Lakhas) a%‏ 
(Lakhas)‏ هو نظام للتلخيص JY‏ تم تطويره بجامعة مونتريال الكندية. يستخدم 
النظام الأسنُوبٍ الإحصائي في عمليات التلخيص التي تتم على المراحل التالية: تجزئة 
النص إلى مجموعة من الجمل» تجزئة الجمل إلى كلمات» وضع حروف الكلمات في صور 
موحدة (مثل هه ة ومثل (d‏ إزالة كلمات الوقف (stop words)‏ (مثل: الذي» التي) 
جذور الكلهات) ثم حساب المعدل التكراري للكلمات المستخلصة» ثم حساب الوزن 
النسبي لكل ila‏ معتمدا على معدل تكرار كلماتها وعلى موقع الجملة في النص» وأخيرا 

يتم استخلاص Je‏ ذات الوزن النسبي العالي لتكوين الملخص المطلوب. 


. نظام (ACBTSS)‏ 
Arabic Concept-Based Text Summarization System)‏ ( 
يعتمد هذا النظام (من جامعة إسكس Essex‏ البريطانية) على تقنية بايز الإحصائية 
وتقنية البرمجة الجينية حيث تُستّخدمان في أنظمة تصنيف النصوص. يحتاج هذا النظام 
إلى XS‏ لغويّة مُرَمّرة ومُرّوّدة بالحواشي» تستخدم في تدريب النظام على استخراج 
خصائص الجمل التي يتم الاحتفاظ بها في ناتج التلخيص. وهذه الخصائص يتم تحديدها 
من خلال المعالجة اللغوية للنص (تحليل صرفي» ترميز أجزاء الكلام) ومن خلال موقع 
الجمل داخل النص بالإضافة إلى المعدل التكراري لكلمات كل ila‏ داخل النص. 


O 
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نظام (The Summarizer of AramediA)‏ 
يتميز هذا النظام (من شر كة صخر) بوجود وظيفة تصحيح الأخطاء اللغوية الشائعة 
ثم يتم التلخيص من خلال استخدام أساليب إحصائية وتحريرية ولغوية للتعرف على أشباه 
الجمل الحاكمة في النص (الكلمات المفتاحية). ويستخدم النظام في تلخيص النصوص 

الإنجليزية والعربية. 


http: / /aramedia.com /summarization.htm 


ه- الخلاصة 

يعتمد بناء أنظمة تلخيص عالي الجودة على أساليب معالجة اللغات الطبيعية مع 
التقنيات الحديثة في dle‏ تعلم الآلة والذكاء الاصطناعى» ولازال هناك تحديات بحثية 
وتطبيقية كثيرة في هذا المجال. 

e‏ هذه التحديات الآتي: 

Y‏ 7 ما هي الميزات المهمّة لنظم تلخيص النص والتي تعتمد على استخراج الأفكار 

الرئيسية من النص الأصلي TEE‏ 

-Y‏ كيف يمكن التعامل مع الجمل الغامضة في النص الأصلي للوثائق» إن وجدت؟ 

-Y‏ كيف نستطيع أن i‏ نظم تلخيص النص؟ 

ومن سمات الاتجاهات الحديثة في هذا المجال تحول الاهتمام من تلخيص النصوص 
العلمية والإخبارية إلى مراجعة واستعراض المنتجات المتاحة عبر الإنترنت» مثل 
المقالات الطبية الحيوية» وتتبع موضوعات التعليم» وتتبع رسائل البريد الإلكتروني» 

ومن أهم الاتجاهات البحثية الدمج بين أكثر من أسلوب تقني مع الاهتمام 
با لخصائص الدلالية لكلمات الجمل ومكوناتها. 
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المبحث الثالث 


استنباط اتجاهات Le TE‏ العام 


-١‏ أهمية تنقيب الآراء. 

-Y‏ مهام وأساليب التنقيب عن الآراء. 

-Y‏ التنقيب في الآراء واللغة العربية. 

5- الموارد اللغوية اللازمة المتاحة والمطلوبة. 

-٥‏ التوجهات المستقبلية والتحديات ul‏ تواجه تنقيب الآراء. 
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استنباط اتجاهات الرأي العام 
(متابعة تطور الآراء على الشبكات الاجتماعية) 

^r‏ فهم اللغات الطبيعية واحدًا من أكبر تحديات الذكاء الاصطناعيّ أو هو المشكلة 
الكاملة في الذكاء الاصطناعيٌ؛ Jen‏ استخلاص الرأي من بين النصوص والتعرف 
على أجزاء النص التي وى غل اراد feta‏ مضا بماك اللحاث الطيعية. 

à V‏ الآراء (Opinion Mining)‏ أو استخلاص الآراء أو وجهات النظر 
(sentiment extraction /Opinion)‏ أو تحليل وجهات النظر Sentiment)‏ 
(Analysis‏ هي مرادفات تتصل بنفس المعنى. 

تنقيب الآراء هو مجال البحوث التي تسعى إلى تمكين النظم الآلية من تحديد الآراء 
البشرية من النصوص المكتوبة (أو المنطوقة مع التطور) بلغة بشرية طبيعية» وهو يتعقب 
ويبحث في تحديد وجهات النظر التي تقع ضمن النص. 

تنقيب الآراء هو: استخراج الآراء الواردة في النصوصء أو هو علم يقوم بدراسة 
استخراج الآراء باستخدام تقنيات استرجاع المعلومات IR‏ والذكاء الاصطناعيٌ «AT‏ 
ومعالحة اللغة الطبيعية NLP‏ 

يتعلق المجال أيضا ويرتبط ارتباطا وثيقا بتلخيص الآراء من المحتوى المقدم من 
المستخدمين أو إعلام ما ينتجه المستخدمون على الإنترنت» أو ما بعرض في المنتديات 
ومجموعات النقاش والمدونات والشبكات الاجتاعية» وتصنيف تلك الآراء 
(Sentiment classification)‏ واستعراضها وتحليلها وكشفها. 

ينسحب تنقيب الآراء على حوسبة اللخة واسترجاع المعلومات IR‏ وتنقيب 
النصوصء ومعالجة اللغات الطبيعية» وتعلم YI‏ والإحصاءء والتحليل التنبؤي؛ 
وهناك العديد من التقنيات التي يمكنها إنجاز هذه المهام. 
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Y‏ - أهمية تنقيب الآراء 

في دراسة مسحية حديثة عن تطبيقات تقنيات التنقيب في النصوص تم الإشارة إلى 
أن ما يقرب من ٠١‏ بالمئة من المعلومات المتاحة على الإنترنت X E‏ في شكل نصوص 

ولا كانت الغالبية العظمى من المخزون الطبيعيٰ مسجلا في كلمات ونصوص. فإن 
هناك نوعين أساسيين من المعلومات E‏ هما: الحقائق» والآراء. وتعمل معظم 
تقنيات معالجحة المعلومات الحالية (مثل آلات البحث) على الحقائق (بافتراض صحتها)» 
ويمكن التعبير عن الحقائق بكلمات أساسية (كلمات حاكمة) تعبر عن الموضوع. من 
أمثلة الحقائق: بيانات تأسيس حزب» بيانات عن التوزيع السكاني لدولة ماء ما آخر 
مقالة للكاتب نجيب EB uat‏ ما أعلى قمة جبل في SII‏ وأين تقع؟. ما هي الدول 
الأعضاء في منظمة «يونسكو»؟ ومن هو مديرها الحالي؟» وهكذا. 

الحقائق ذات أهمية كبيرة في الحياة الواقعية الحقيقية إلا أن الآراء أيضا تلعب دورا 
حيويا وأساسيا لمعرفة ما يجرى وردود الأفعال. 

تم إنتاج طائفة واسعة من التطبيقات التي تتيح تنقيب وجهات النظر (شكل 
»)٠٠-٤‏ وقامت بالتركيز على قدر كبير من البحوث في السنوات الأخيرة» وقد تم 
التوصل إلى دقة عالية في التصنيف باستخدام مجموعة متنوعة من التقنيات» يعتمد 
معظمها اعتمادا كبيرا على علوم الإحصاء والذكاء الاصطناعي وتعلم الآلة وعلوم 
معالحة اللغات الطبيعية. 
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الشّكل £ :٠١-‏ طائفة واسعة من التطبيقات التي تتيح تنقيب وجهات النظر. 
أصبحت أتمتة استخراج الآراء من النص Ye‏ يحظى pleal‏ متزايد» ونظرا للكمية 
المتزايدة من المحتوى المقدم من المستخدمين والمتاحة على الشبكة فقد ازدادت أهمية 
قدرة دقة قياس الآراء بتطبيقات عملية أكثر من أي وقت مضى. 
والإحصائية التالية ها دلالة عن أهمية هذا العلم الحديث» فوفقا لاثنتين من 
الدراسات الاستبيانية لأكثر من ٠٠٠١‏ من الأمريكيين البالغين لكل منهما: 
البحث على الإنترنت با لا يقل عن مرة واحدة على منتج ما (منتجات مثل: 
أدوات التجميل» أجهزة المحمول. ... ). 

-١‏ تبين أنه من ۷۳/ إلى AV‏ من بين الذين يقرؤون التقارير والمقالات ووجهات 
النظر المنشورة على الإنترنت عن المنتجات والمطاعم والفنادق والخدمات 
المختلفة (مثل وكالات السفر أو الأطباء) قد أفادوا أن هذه التقارير لعبت دورا 
كبيرا على قرارهم في شرائهم هذه المنتجات أو ذهابهم إلى هذه الأماكن. 

۳- تبين أن AY Y‏ من الذين شاركوا في الاستبيان قد قاموا بالتعبير عن رأمهم في 
تصنيف جودة منتج أو خدمة أو شخصء وذلك باستخدام نظم التقييم الآنية 


Ye 
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المتاحة على الإنترنت» وأن * Y‏ (من بينهم 1۸./ من كبار السن) قد نشروا 
تعليقا على الإنترنت أو قاموا بمراجعة بشأن منتج أو خدمة من الخدمات التي 
coy‏ لها على الإنترنت. 

يفيد تنقيب الآراء في العديد من التطبيقات» مثل: 

-١‏ المؤسسات والمنظمات من أجل تقييم المتتجات والخدمات. 

. (Market intelligence) استخبارات السوق‎ -Y 

۳- توفير JUI‏ والجهد» ومعرفة آراء ووجهات نظر المستهلكين. 

-٤‏ يساعد في معرفة الأفراد للمنتجات التي تلقى lal‏ من الآخرين ووجهات 
نظرهم بشأنها. 

-o‏ توفر نظم تنقيب النصوص للمؤسسات والشركات معلومات تنافسية من 
خلال معالجة كمية كبيرة من النصوص والحصول على الفوائد منها. 


1— تحليل ملفات العملاء تحليل اتجاهات» ترشيح وتوجيه المعلومات» تتبع 
الأحداث» تصنيف الموضوعات الإخبارية» بحث ويب.... إلخ. 

۷- يقوم E‏ ملفات العملاء بالتنقيب في البريد وشكاوى العملاء والتغذية 
المرتدة منهم» كا يمكن تحليل ملفات المرضى للحصول على اتجاهات مرضية 
وشكاوى وجودة الخدمات» وتحليل بث المعلومات وتنظيم وتلخيص 


اتجاهات الأخبار والتقارير» وتنقيب مستندات تخطيط موارد المؤسسة. 


-A‏ التطبيقات كمكونات تكنولوجية فرعية: نظم التوصيات» التلخيص» إجابة 


4- تطبيقات في الأعمال: استخبارات السوقء تحسين المنتج والخدمات. 

- فهم رأي المستهلك الذي يعبر عن صوته في الاتصالات اليومية. 

-١١‏ تطبيقات سياسية: ى| هو معروف» يلعب الرأي دورا كبيرا في السياسة» وتركز 
بعص dedi‏ قات Je‏ هم ما بكر satide saltua‏ 
أو تشريع القوانين. 
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5- تحليل المدونات: إنجاز تصنيف الاستقطاب والتصنيف الموضوعيٌ على 
محتويات المدونات والمراسلات التي تتم فيها. 

-١‏ اكتشاف الاختلافات فى JULI Pol‏ المزاجية على مدار الوقت (الخوف» 
الإثارة» الحزن» Ci e gll cc ila‏ الذي Je sels‏ اق واسع. 
١4‏ - استخدام ربط المعلومات الزمنية لنمذجة الثقة والتأثير في نطاق المدونات. 
6- تحليل وجهات النظر في المدونات عن أعمال فنية وإبداعية وأفلام ومبيعات. 
7- تفاعل الحاسب والإنسان» وتفاعل الإنسان مع الروبوت. 

١‏ - التعليم والامتحانات. 


-Y‏ مهام وأساليب التنقيب عن الآراء 
m‏ عن الآراء داخل النصوص بإحدى وسيلتين. الوسيلة الأولى: وهي التعبير عن 
الرأي المباشر» مثل « تصميم هذه السيارة رائع»» والوسيلة الأخرى: من خلال التعبير 
المقارن» مثل «تصميم هذه السيارة أفضل من تصميم i uL‏ الأخري4. coelos‏ 
تقنيات التنقيب التعامل مع الآراء بأنواعها المختلفة. 
وإذا كانت محركات البحث في صفحات الإنترنت تلبى بصورة أو أخرى حاجات 
المستخدم في البحث عن الحقائق من خلال استخدام الكلمات الحاكمة للتعبير عن 
متطلباته» فإن على cols e‏ التنقيب في الرأي أن تلبي حاجات المستخدم في معالجة 
وإجابة أنواع الأسئلة التالية الخاصة بالرأي: 
إحدى خصائصه. مثل: 
ما رأي عباس العقاد في الكاتبة مىّ زيادة؟ 
معين أو في إحدى خصائصه. مثل: 
ما هي الدول الأعضاء ني مجلس الأمن التي تتعاطف مع القضية الفلسطينية؟ 
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ما هو الرأي الإيجابيّ D‏ الرأي السلبي) في منتج أو كائن معين. مثل: 

مقارنة بين الرأي في أشخاص أو جهات أو كائنات اسميّة معينة أو في منتجات 
ماذا يميز التلفاز من ps‏ «إل سي دي» عن التلفاز العاديّ؟ 

ما هو الرأي في منتج أو كائن معين؟ هنا لا يكتفي مرل التنقيب برآي شخص 
واحد أو جهة واحدة» DE‏ يجب أن يأخذ في الاعتبار الآراء المختلفة ومن المفيد 
أن تكون الإجابة طبقا لآراء الأغلبية مع التنويه عن النسبة. مثل: 


ما ري الجمهور في أداء الفريق القومي أمس؟ 


لكي تكون محركات التنقيب قادرة على التعامل مع الأنواع المختلفة من الأسئلة 
السابقة» ينبغي أن تتعامل مع المحتويات المختلفة لمكونات النص على النحو التالي: 


التعامل على مستوى عبارة داخل الجملة للتعرف على الكائن (شخص» جهة» 
التعامل على مستوى عبارة داخل الجملة للتعرف على خاصية من خصائص 
الكائن واستخلاصها (درجة حرارة الغرفة» سعة ذاكرة الحاسب» تصميم 
السيارة» إلخ). 
التعامل على مستوى الجملة للوصول للرأي. 
التعامل على مستوى الوثيقة للوصول إلى تصنيفات الرأي المستخلصة من الجمل. 
أحيانا تحتوي الجملة الواحدة على أكثر من رأي أو مقارنة بين رأي وآخر مثل: 
«(حمد يحب كرة القدم» ولكن عادل لا يكترث). 

بالنظر إلى ما سبق يمكن أن نخلص إلى أن مفهوم الرأي يحتوى على ثلاث 
مكونات رئيسة» هي: 


صاحب الرأي أو حائز الرأي. 
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لكي تستطيع محركات التنقيب عن الآراء الوصول إلى هذه المكونات الثلاثة من 
الجملة أو الوثيقة فإنها تقوم بمجموعة من المهام والوظائف المتعددة» مثل التعرف علي 
الكلمات والجمل اللغوية داخل المقال» التعامل مع المترادفات والمتضادّات» التعامل 
مع التطابق والجناس والتعامل مع الكلمات التي تحمل معنى الرأي والتعرف على 
الدلالات التعبيرية هذه الكلمات والجملء ثم تحديد وتصنيف رأي المقال. وعموما OB‏ 
قائمة المهام التالية تمثل حجر الزاوية في نظم التنقيب عن الآراء» والتي تأخذ معالجة 
وخصائص اللغات الطبيعية في الاعتبار: 


التحليل الصرفي والإعرابي للنص. 

بناء واستخدام قاعدة بيانات الدلالة المعجمية المعنية بالمشاعر Sentiment)‏ 
(Lexical Semantics Database‏ . 

Opinion) el JI على‎ ŠÍ oine IL مُعَنونة‎ KA بناء واستخدام مُدَوّنة‎ 
. CAnnotated Corpora 

التعرف على القائم بإبداء الرأي (ويطلق عليه اسم حائز الرأي) والتعرف على 
التعرف على طبيعة الكلمات (كلات موضوعية مقارَنة بالكلمات التقديرية). 
تحليل المعنى التقديري للكلمة .(Subjectivity Analysis)‏ 

استخراج الرأي وتصنيف النص طبقا لذلك. 

تلخيص وجهات النظر المختلفة (Views summarization)‏ (وتلعب دورًا 
كبيرًا في حالة تعدد الوثائق عن نفس الموضوع» سواء أكانت مكتوبة بلغة واحدة 
el‏ بلغات متعددة). 
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وفيما يلي سنلقي الضوء على أساليب تنفيذ بعض هذه المهام. 
۲ -التعرف على أسماء الكائنات (Recognition Entities Named)‏ 


توجد تقنيات متعددة للتعرف على الكائنات الاسمية داخل النص. وتنقسم هذه 
التقنيات إلى الأنواع التالية: 


تقنيات مبنية على القواعد النّحويّة. وهى عادة عبارة عن قواعد مصاغة يدويًاء 
à; AUI i abl ase VE dc‏ اا وده coii‏ نعط da ge‏ غالية فى 
التعرف على الكائنات الاسميّة» ولكنها في الغالب لا تغطي معظم الحالات» 
بالإضافة إلى إنها عالية التكلفة في الإعداد وتحتاج إلى أشهر من العمل من قبل 
اللعوين ذرى اللخبرة اساي 

تقنيات مبنية على am‏ الإحصائية للغة. وتتطلب عادة إعداد كمية كبيرة 
من النصوص التي يتم إضافة الحواشي إليها وتميبز الكائنات الاسميّة بينها 
يدويًا. ويبقى دور برمجيات تعلم الآلة لاستخلاص وصياغة ناذج التعرف على 
الكائنات الاسميّة. وهي أيضا مكلفة الإعداد ولكن لا تحتاج خبرة اللغويين 
بمثل احتياج التقنيات السابقة. 

تقنيات مبنية على قوائم بالأسماء السابق إعدادها يدويا (أو قواعد بيانات 
متخصصة للكائنات الاسمية (Gazetteers‏ وتعمل بنجاح في المجاللات ذات 
ERES NAT‏ 


Y‏ ؟- التعرف على القائم بإبداء الرأي (ويطلق عليه اسم «حائز الرأي») 

جذبت مهمة التعرف على «حائز الرأي» عددًا كبيرًا من الباحثين. وقد استعيرت 
تقنيات كثيرة من مجالات متعددة» مثل التعرف على الأصوات والتنقيب في البيانات 
العددية لتخدم هذه المهمة. وبدون الدخول في التفاصيل الفنية» نميز من بين التقنيات 
الكثيرة المستخدمة في التعرف على حائز الرأي التقنيات التالية: 


تقنيات ناذج مار كوف المخفيّة .(HMM- Models Markov Hidden)‏ 


تقنيات الحقول الشرطية العشوائية (Fields Random Conditional)‏ 
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* المنهج القائم على قواعد المعرفة. 
* تقنيات التجميع والتصنيف (مثلا باستخدام حالة الفوضى القصوى). 
منهج يعتمد على وجود معجم. 
t‏ تقنيات تعتمد على وجود معلم» مثل: 
- تقنيات تعلم الآلة» مثل آلة العم الموّجّهة (SVM)‏ 
e‏ تقنيات لا تعتمد على وجود معلم» مثل: 
- استنباط المعجم. 


- تقنيات التعلم الذاتي باستخدام التمهيد (Bootstrapping)‏ . 


- منهج التعلم المختلط (وجود وعدم وجود معلم). 
* تقنيات دلالية» وهي تقنيات تعتمد على تمييز الكلمات وحساب الارتباط 
الدلالي بينها اا أساليب مختلفة مثل: 
- فهرسة الدلالات الكامنة .(Indexing Semantic Latent)‏ 
- أساليب المعاملات الأرجح. 
- أساليب المعلو مات المتبادلة نقطة بنقطة .(Information Mutual wise Point)‏ 
* تقنيات مهجنة تجمع بين نوعين أو أكثر من التقنيات السابقة. 
Y‏ و - التعرف على طبيعة الكلمات والعبارات اللغوية (كلمات موضوعية بالمقارنة 
إلى الكلمات التقديرية) 
من وجهة نظر التنقيب في الآراء يتم تقسيم نوعية الكلمة إلى نوعين رئيسين: 
٠‏ الكلمات الموضوعية (words Objective)‏ 
٠‏ الكلمات التقديرية (words Subjective)‏ التى تعبر عن الخصائص؛ LAŽ y‏ 
قيمتها في الغالب تقديري. l‏ 
قوي - الأفضل 
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أفقى - سائل 
أصفر - أبيض - أسود 

تركز البحوث ا حالية على التعامل مع الكلمات والعبارات التي يطلق عليها كلمات 
المحتوى مثل: (الأسماء» الأفعال» الصفات» الحال) وتعتمد هذه الأبحاث على استخدام 
بر يات تمييز أجزاء الكلام Tagging (POS) Speech-of-Part‏ « ويقصد مها تحديد 
وتصنيف نوع الكلمة: فعل» فاعل» اسم مفرد» اسم جمع» صفة» حال» أداة تعريف» 
وهكذا. بالنسبة لبعض أنظمة الحاسب مثل فإنها تعرف ما بين ٠١‏ إلى ١6١‏ علامة تمييز 
للغة وك اطال بالنسية للقة العريية. 

كما تستخدم أساليب لغوية أخري مثل استخراج الجذر وتحديد الجذع للكلمة ومثل 
حذف الكلمات الوظيفية وغيرها من الكلمات التي تعرف باسم (Stop words)‏ (مثل 
(ds‏ 

(Analysis Subjectivity) تحليل المعنى التقديري للكلمة‎ -5 , Y 

يختص تحليل المعنى التقديري للكلمة بتحديد إلى أي الفئات تنتمى قطبية الكلمات: 
هل هي إيجابية أم سلبية أم حيادية 

olds‏ إيجابية» مثل: ممتاز - رائع - جيد - بمهارة - متقن 

كلمات سلبية» مثل: سىء - حزن - مع الأسف - يتألم 

cols‏ حيادية» مثل: جدا - كثيرا - قليل - طويل 

وقد يبدو للوهلة الأولى أن هذه مهمة سهلة» بالفعل هذا سهل بالنسبة للشخص 
الذي يتحدث ويتقن اللغة ويمتلك المعرفة البديبية (Commonsense Knowledge)‏ 
ولكن بالتسبة للحاسب VIE‏ فهذا يفل LZ‏ كبييرًا له نرا لتعده ظواهر 
اللبس في اللغة ونظرا لعدم إمكانية تغذيته بجميع المعارف البديبية وصعوبة تمييز المعاني 
الضمنية وقراءة ما بين السطور. فعلى سبيل المثال.. عندما Gb‏ في النص عبارة «طيب 
القلب» هل هي عبارة إيجابية آم عبارة سلبية! (بالطبع تخضع لسياق الجملة). 

وكا في تقنيات المهام السابقة مثل تقنيات التعرف على الكائنات الاسميّة وتقنيات 
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التعرف على القائم بإبداء الرأي فإن تقنيات مهمة تحليل المعنى التقديري للكلمة تنقسم 
إلى قسمين رئيسيين وهما: 

e‏ تقنيات مبنية على ce)‏ الإحصائية للغة. وتتطلب عادة إعداد كمية كبيرة 
من النصوص التي يتم إضافة الحواشي لها وتمبيز المعنى التقديري للكلمة بينها 
بطريقة يدوية. ويبقى دور برمجيات تعلم NI‏ لاستخلاص وصياغة ناذج 
التعرف على المعنى التقديري للكلمة. وهي أيضا مكلفة الإعداد ولكن لا تحتاج 
خبرة اللغويين بمثل احتياج التقنيات اللغوية. 

* تقنيات مبنية على Ael‏ بيانات معجمية. وهى عادة عبارة عن قواعد بيانات 
لكلمات اللغة مزودة ببرمجيات تحليل صرفية للتعامل مع الاشتقاقات الصرفية 
المختلفة للكلمة الواحدة. وهذه التقنيات تعطي جودة عالية في التعرف على 
المعنى التقديري للكلمة» ولكنها عالية التكلفة في الإعداد وتحتاج إلى أشهر من 
العمل من قبل اللغويين ذوي الخبرة الحسابية. 

وتتراوح دقة التقنيات ا حالية في تحديد المعنى التقديري للكلمة نسبة تتراوح بين VA‏ 

- ۸۷ مما يدل على الحاجة إلى جهو دات بحثية مستمرة للوصول إلى دقة أعلى تتناسب 
واحتياجات التطبيقات العملية. 


۲ , - استخراج الرأي وتصنيف النص 

معظم تقنيات استخراج الرأي المتاحة حاليا تأخذ في الاعتبار مهام التعرف على 
طبيعة الكلمات وتحديد المعنى التقديري ها ولكن توجد اتجاهات بحثية أخرى تصل إلى 
تحديد الرأي بدون المرور بعملية تحديد طبيعة الكلمات ومعناها التقديري. 

على سبيل المثال» توجد أنظمة لتحليل اتجاهات مقالات الرأي عن الأفلام السينائية 
Pang et al. (2002)‏ باستخدام التقنيات الإحصائية وتقنيات تعلم الآلة المختلفة مثل 
تقنيات بايز «(Bayesian Naïve) ib ZA‏ وتقنيات آلات الدّعم Support) i% 4l‏ 
«(vector machines‏ وتقنيات الفوضى (Maximum Entropy) (6 paill‏ . 

وتعتمد هذه التقنيات على استخراج مجموعة من الخصائص من المقالات ودراسة 
cotta‏ بل آلاف من المقالات التى 25 C9‏ طبيعة الرأي لها ومحاولة التعرف على العلاقة 
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بين طبيعة وقيم الخصائص المختلفة التي تم تحديدها (أو يتم أيضا استنتاجها بواسطة 
البرمجيات). ويتم تطبيق هذه العلاقات على المقالات الجديدة لتحديد طبيعتها 
واستخلاص الرأي منها. 
ce‏ من خصائص المقالات المستخدمة في )2002( :Pang et al.‏ 

* قوائم الكلمات في النص وأماكن تواجدها في النص. 

٠‏ علامات تمييز أقسام الكلام. 

* أعداد تواتر ثنائيات الكلات بالنص. 

* قوائم الصفات الموجودة بالنص. 

٠‏ أعلى 7777 كلمة أحادية من حيث تكرار تواجدها بالنص. 

وقد بلغت دقة حساب رأي المقالات نسبة بين ۷۸,۷ و JAY LA‏ 

في حالة التقنيات التي تعمل بالاعتماد على طبيعة الكللات وقيمها التقديرية كا 
في شغل (2004) Hu and Liu‏ يتم تحديد رأي الجملة وذلك بحساب نسبة مجموع 
الكلمات الإيجابية بقيمها التقديرية مقارنة بمجموع الكلمات السلبية بقيمها التقديرية 
(وذلك لكل كلمات الرأي الموجودة بالجملة)» وقد بلغت دقة حساب رأي الجملة نسبة 
AE SY‏ 


-Y'‏ التنقيب فى الآراء واللغة العربية 

(استخراج الآراء من المعلومات العربية وشرح السببية في Jie‏ الأخبار) 

ملحوظة: هذا الجزء من الفصل ا حالي مأخوذ من أعمال قمنا بها بمركز التنقيب في 
البيانات بجامعة القاهرة. 

ما هي المسألة: بناء نظام تميكن يستقبل النصوص الإخبارية ويقوم باستخراج الآراء 
بشأن كيان معين ګحدده المستخدم. 
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تقدم مؤسسيه بطلب إشهاره قانونياء عقد حزب «مصر الأم» مؤتمره الصحاني 
الأول في القاهرة» لكن الرفض الجماهيري حال من دون إكمال المؤتمر» (os‏ لهذا الآمر ما 
يبرره» فقد جاءت أفكار وبرنامج الحزب غريبة على المتلقي المصري» وجاءت دعاوى 
العودة إلى القومية المصرية القديمة» واعتبار المصريين غير عرب» وأن اللغة التى تتحدث 
بها مصر هي لغة مصرية وليست عربية كا زعم محسن لطفي السيد وكيل الحزب. 
والمطلوب الإجابة على سؤال مثل: 
(MI‏ ويستنتج ذلك من تواجد كلمات تحمل مفهوم السلبية في معناها مثل «الرفض 
الجماهيري» وأن يتعرف على سبب هذا الرأي السلبى. والسبب في حالتنا هذه هو: 
«فقد جاءت أفكار وبرنامج الحزب غريبة على المتلقى المصري» وجاءت دعاوى 
العودة إلى القومية المصرية القديمة» واعتبار المصريين غير عرب» وأن اللغة التى تتحدث 
بها مصر هى لغة مصرية وليست عربية). 
يبين الشكل UII‏ (الشكل )١١-5‏ هيكل نظام استخراج الآراء من المعلومات 
العربية وشرح السببية له. 


الرآي وسيب الرأي y‏ 
المستخرج 
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وحدة تعدين الأفكار 


وحدة التعرف على المكونات الاسميّة العربية 


قاعدة بيانات الدلالات المعحمية - 
التصوص الإغيارية العربية 


الشكل A- E‏ : هيكل نظام استخراج الآراء من المعلومات العربية وشرح السببية لها 
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وفيها يلي شرح مبسط لكل وحدة من مكونات نظام استخراج الآراء من المعلومات 
العربية وشرح السببية له. 
Y, Y‏ - وحدة التعرف على الكائنات الاسميّة العربية 
دور هذه الوحدة هو التعرف في نصوص الأخبار على مختلف فئات الكائنات 
الاسميّة العربيّة (شخص أو منظمة» والموقع والتاريخ والوقت» وأنواع الوظائف» 
والسيارات والأجهزة وال هواتف النقالة» والعملة). 
9 هذه الخطوة مهمة جداء لأن هذه الكائنات الاسميّة مُكل غالبا أصحاب الرأي 
الأكثر شيوعا أو كائنات تتصل بها الآراء والأخبار. 
M‏ وعلاوة على ذلك» فإن هذه الكائنات في حد ذاتها هى عبارات موضوعية وليست 
عبارات دلالية تفيد الرأي وبالتالي وفي وقت لاحق فإن نظام التنقيب والبحث 
عن الرأي يمكن تجاهل هذه الكائنات من حيث سلبية أو إيجابية المعنى. 
ee si;‏ الشكل التالي (الشكل C Y E‏ كيف تعمل هذه الوحدة: 


متن الأخبار ملحق به 
علامات قييز الأسماء 


الشّكل Y- ٤‏ : وحدة التعرف على الكائنات الاسميّة العربية 
تستخدم هذه الوحدة مصنف من نوع «الحقول الشرطية عشوائية» Conditional‏ 
classifiers (CRF) Fields Random‏ الذي سبق الإشارة إليه وذلك للتعرف على 
الكائنات الاسميّة المختلفة. 


يعمل هذا المصنف TRE‏ يعرف باسم (Bootstrapping)‏ وهو Yr‏ للتعلم 
الذاتي من خلال تزويد المصنف بقائمة أولية من آناط المسميات المختلفة» مثل: أنماط 


-YVY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


الأشخاص أو المنظمات» والمواقع والتواريخ » وأنواع الوظائف» والسيارات والأجهزة 
وال هواتف النقالة» والعملات النقدية وغيرها. وعلى المصنف زيادة هذه الأناط كلما 
تعرض إلى نصوص إخبارية جديدة. eed zs‏ الشكل التالي (الشكل OTE‏ سلوب 
عمل المصنف من نوع «الحقول الشرطية عشوائية»: 


متن النصوص العربية | 


الأناط الأولية 


الشكل 1-4 : مصنف من نوع «الحقول الشرطية عشوائية». 
وجدير بالذكر أن هناك مشروعات وأبحاث كثيرة في مجال التعرف على الكائنات 
الاسميّة من النصوص» وقد المت هذه الأبحاث نحو الدمج بين العلوم الإحصائية 
وعلوم تعلم الآلة وعلوم اللغويات حتى يمكن أن نصل إلى جودة عالية في التعرف على 
الكائنات الاسميّة. وتمثل عملية التعرف الآلي على الكائنات الاسميّة تحديًا كبير نظرا 
لديناميكية الأسماء وظهور مسميات جديدة ونظرا لقضايا اللبس الناتج من تعدد المعنى 
المحمول على الكلمات. 
Y‏ 7- وحدة التنقيب عن الرأى 
* تشتمل هذه الوحدة ie de‏ بيانات معجمية دلالية لجميع كلمات اللغة 
العربية حيث توصف كل كلمة بموضوعيتها أو تقديراتهاء بمعنى آخر هل هي 
كلمة موضوعية تقبل الصواب والخطأ مثل كلمة «اليوم» في جملة «اليوم عطلة 


-—yVTe 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


[PPP‏ أم هي كلمة ذات طبيعة تقديرية» مثل كلمة «رائع» في جملة «الطقس 
اليوم رائع». ومع كل كلمة ذات طبيعة تقديرية توضح قاعدة البيانات المعجمية 
الدلالية قطبية الكلمة؛ هل تدل على شيء إيجابي أم تدل على شيء سلبي؟. 
ومن البديبيّ أن توجد كلمات تعبر عن السلبية والإيجابية» وذلك طبقا لسياق 
الأممعناء. ك TOF‏ قد تعني عدم المشاركة والسلبية في الرأي أو قد 
تحمل المعنى الويجابي وتعني القدرة على تحمل الموقف (مثال: ظل الشعب صامتا 
رغم تزوير الانتخابات» ظل الرجل صامتا رغم شدة المرض). 
وتوجد جهود كثيفة من فرق أبحاث الشركات العربية العاملة في المجال في بناء 
قواعد بيانات معجمية دلالية للغة العربية على نمط قواعد البيانات المعجمية الدلالية 
للغات الإنجليزية (SentiWordNet)‏ حيث تعبر عن قطبية الكلمة (المعنى الشعوري 
أو العاطفي أو الرأي) بموقعها داخل المثلث كما في الشكل O E= E)‏ 


إيجابية تقديرية 
كلمة "محتر 'a‏ 
0 
موضوعيه 


الشّكل ؛ -£ : قطبية الكلمة 
* تقوم الوحدة بتحديد نوعية الكلمة (موضوعية el‏ تقديرية) وفي حالة التقديرية 
تقوم الوحدة بتصنيف الكلمة طبقا لقطبيتها. 


* استخراج التعبير الرأي من النص وتحديد صاحبه وموضوعه. 


-Wt- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
س 


أمثلة من قاعدة بيانات معجمية دلالية: 


معان موضوعية معاني إيجابية معان سلبية 
* الرجل ws e. EE‏ 
* الصوت * الشجاعة ٠‏ ردئ 

e‏ الآلة © العطاء فت 


ويوضح الشكل QUII‏ (الشكل E‏ 07( كيفية ترميز كل حقل دلالي بالقطبية المناسبة 
a‏ ب .(Bootstrapping)‏ 
أخيرا يتم الحصول على ثلاث فثات 


من الحقول الدلالية يحتوي كل منها 
على كلمات متشابه القطبية 


يتم تطبيق العلاقات المعجمية: 
hyponym, Hypernym, Part of, totality,)‏ 
(place, time‏ ذلك للحصول على حقول دلالية 
ذات قطبية متساوية 


يتم تطبيق العلاقة المعجمية: 


(Antonyms)‏ ذلك للحصول على حقول 
دلالية قد تكون ذات قطبية عكسية 


الايجابية والسلبية 


)= المرادفات لكل كلمة من 0 


ابدأ بثلاث بذور أولية 


-16> 


الشّكل :١6-5‏ التعلم الذاتي باستخدام التمهيد (Bootstrapping)‏ 
* بعد ترميز كل حقل دلالي يتم حساب قيم الإيجابية والسلبية وا موضوعية لكل 
* يراعى أن يكون مجموع القيم الإيجابية والسلبية والموضوعية لكل كلمة يساوي 


رقم الواحد الصحيح. 


—YVo- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


Y Y‏ تصنيف موضوعية النص 

لتصنيف الجملة وفقا لتوجهاتها الدلالي» يتم تنفيذ المهام التالية: 

* تحديد القطبية لمكونات الجملة 

يتم تصنيف العبارات في كل جملة. ويطلق على هذه العبارات مصطلح القرائن. والقرينة 
الواحدة قد تحتوي على أكثر من كلمة واحدة. يتم هذا التصنيف من خلال تحديد العناصر 
التالية: 


e‏ تحديد ما إذا كانت القرينة موضوعية» تقديرية» أم حيادية. 


تحديد اتجاه قطبية القرينة: يميل نحو إيجابية» أم يميل سلبية. 
LO‏ ر برح الكفاية درسة ED‏ 
ولكن كيف يتم تحديد القطبية وقوتها لكل قرينة؟ 
i‏ بالنسبة للقرائن وحيدة الكلمة يتم الحصول على قطبيتها وقوتها من خلال قاعدة 
بيانات يطلق عليها اسم #المعيار الذهبي» حيث يتم إعدادها يدويا أو يتم إنشائها 
عر ب (Bootstrapping)‏ المذكور آنفا. 
* بالنسبة للقرائن ثنائية الكلمة أو ثلاثية الكلمة أو عدد ن من الكلمات (يطلق على 
هذا المصطلح «النّحو العدديّ (IGram-N‏ يتم الحصول على قطبيتها وقوتها 
(Algorithm (PMI) Information Mutual‏ وذلك JL‏ جوع إلى قطبية 
القرائن وحيدة الكلمة وإلى المعيار الذهبي. 
وباختصار شديد OG‏ قيمة (PMI)‏ بين كلمتين W2 owl‏ تعبر عن مدى تواجد 
هاتين الكلمتين متتابعتين في اللغة العربية: 
PMI (w1,w2) = log2 [p(w1&wl)/p(wl).p(w)]‏ 


حيث p‏ تمثل مدى تكرار الكلمة في اللغة» 1082 تمثل الدالة اللوغارقية. 


-]/اا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


٠‏ تحديد الرأي على مستوى الجملة 
يتم ذلك باستخدام عدة أساليب مختلفة منها ما يعتمد على تطبيق خوارزمات تعلم 
الآلة ومنها ما يعتمد على استخدام التحليل اللغوي للجملة. 


" eee A E 159. CA يرت‎ 


الشكل 15-4 : تحديد الرأى على مستوى الجملة. 
٠‏ تحديد الرأي (خوارزمات تعلم الآلة): 
تعمل خوارزمات تعلم الآلة على مجموعة من etl‏ يتم استتخلاصها من الجملة 
كما 5S3‏ في الفصل الثاني من هذا الباب (تلخيص النصوص). ويتم التعبير عن هذه 
الخصائص بدلالة قطبيات القرائن التي تم استخراجها من الجملة. 


وتتطلب خوارزمات تعلم الآلة وجود مُدَوّنة AL‏ مُعَنونة يدويا بالرأي أو بطريقة 
(Bootstrapping)‏ لتوفير المجهود اليدوي. 

عادة ما تكون eu‏ استخدام خوارزمات تعلم الآلة CI jr‏ كانت do‏ الحديدة 
مراد استخلاص الرأي منها تأي من نفس Jle‏ المدَوّنة ERAT‏ الي استخدمت في 
تعليم الآلة. فمن غير المتوقع أن تكون النتائج غير مرضية عند استخدام آلة قد تم 
تعليمها لنصوص إخبارية في تحليل الرأي لنصوص في جال الطب. 


-Yvv- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
/ ;1 ا 


* تحديد الرأي والتحليل النحوي للجملة العربية: 

التحليل النحوي للجملة يتميز بقدرته على الاستخدام في مجاللات متنوعة وبالتالي 
يحل مشكلة خوارزمات تعلم الآلة المذكورة أعلاه. 

فالتحليل النحوي الصحيح للجملة يحدد الحدث ومن فاعله ومن وقع عليه 
ومن قام بالاشتراك فيه» وينتج عنه ربط الصفة بالموصوف» وينتج عنه ربط الضمائر 
بالكاينات الاسم الموجودة بالجملة..ولذا يشخدم c el lol‏ للجملة العربية 
مقرونا بوحدة التعرف على الكائنات الاسميّة لتحديد موضوع الرأي ومن هو صاحب 
الرأي وما هو الرأي نفسه. 

على الرغم من النتائج الإيجابية لوحدة التعرف على الكائنات الاسميّة إلا أن 
خوارزمات التحليل النحوي المتاحة للنصوص العربية لا تضاهي مثيلاتها للغة 
الإنجليزية وتمثل نقطة الضعف في الوصول إلى أنظمة استخلاص الرأي التى تعمل 
بكفاءة. l‏ 

مع زيادة كفاءة المحلل النحوي (والدلالي) ودمجها مع خوارزمات تعلم الآلة فإنه 
من المتوقع أن ترتفع دقة أنظمة استخلاص الرأي بصورة ملحوظة. 


4- الموارد اللغوية اللازمة المتاحة والمطلوبة 

تحتاج نظم تنقيب الآراء طبقا للتقنيات المستخدمة في تنفيذها إلى أحد أو بعض 
الموارد اللغوية التالية: 

١‏ - قواعد البيانات المعجمية. 

-Y‏ قواعد البيانات المعجمية الدلالية. 

Y‏ 7 نظم المحللات الصرفية والنحوية. 

-٤‏ المدّوّنات ÉSI‏ المتنونة الدالة على موضوع الكلمة وقيمها التقديرية. 

ويلاحظ أن نظم المحللات الصرفية والنحوية وقواعد البيانات المعجمية تعتبر 
قاسم مشترك لتطبيقات لغوية كثيرة» وبصفة عامة فإن كثير من الموارد اللغوية متاحة 


—YVA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o ©2131‏ ^ 


(بمقابل مادي بسيط للباحثين) للغات الإنجليزية واللغات الأوربية الرئيسية واللغات 
الأسيوية مثل الصينية ولكنه شحيحة على مستوى اللغة العربية. 
فعلى مستوى اللغة الإنجليزية نجد: 
Y, 5‏ - شبكة الكلمات (WordNet)‏ (من جامعة برينستون) وتشتمل على مفردات 
اللغة الإنجليزية وأمثلة لاستخداماتها ومعانيها المختلفة ومدى شيوع 
استخدامها والكلمات المرتبطة ببعضها؛ وغيرها من المعلومات. وبيانها 


الإحصائي كالتالي: 
| المجموع ترادف الكلمات بدون تكرار جزء الكلام | 
أزواج الكلمات - Strings gui‏ 
١١177 م5١16 ١‏ اسم 
77V Yo:tv‏ 104 فعل 
۱۸۱1٩7١ TY‏ 17۹ صفة 
Yyy) 00A*‏ ا۸ حال 
Yo0YAV ١١4 4۱‏ المجموع 


الجدول :١- ٤‏ أعداد الكلمات وفئات الكلمات والمعاني 


متعدد المعنى متعدد المعنى وحيدة المعنى d‏ الكلام 
المعاني الكلمات الكلمات والمعاني 
۹ ه16 ۹A7 ١‏ اسم 
Yyy oYoY \AYY `‏ فعل 
Eav ۳44‏ 10۰۳ صفة 
YV£A vvv YAY Y‏ حال 
YA vago.‏ 1۸4۱ المجموع 


الجدول 5 -5: بيانات تعدد المعاني 


-Wa- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mn——— $5‏ 


متوسط تعدد المعنى متوسط تعدد المعنى 5 
باستثناء الكلمات ذات المعنى الواحد | شاملة الكلمات ذات المعنى الواحد [m‏ 
Y, YE Y,VA‏ اسم 
ds ۱۷ Yoy‏ 
١5 ۳,۷۱‏ صفة 
١" Yos‏ حال 


الجدول 4 Y-‏ متوسطات تعدد المعاني لأقسام الكلام 


«(SentiWordNet) قواعد البيانات المعجمية الدلالية‎ - Y, ٤ 

وهي شبيهة بشبكة (WordNet) AIII‏ ولكن مع التركيز على معلومات المشاعر 
(Sentiments)‏ للكلمات. فمع كل مجموعة ترادفات للكلمة يتم وضع البيان الثلاثي 
التالي (ثلاث أرقام): قيمة الموضوعية» قيمة الإيجابية» قيمة السلبية. 


مثال كلمة interesting)‏ (بمعني مثيرة للاهتام) تأخذ القيم التالية: 
معنى إيجابي: ٠,۲۲١‏ معنى سلبي * كلمة موضوعية: ٠‏ 


وموقعها داخل المثلث كالتالي: 


الشكل 17-4 : قطبية الكلمة 


-yA =- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ل 


£ و "- E ADI SA‏ المزودة بالحواشي الدالة على موضوع الكلمة وقيمها التقديرية: 
ويحتوي على ٥٠١‏ مقالة إخبارية تحتوي على ١١١١54‏ جملة» كل كلمة فيها مزودة 
بالحواشي الدالة على موضوع الكلمة وقيمها التقديرية. 


٤‏ و 5 - نظم المحللات الصرفية والنحوية: 
يتوافر العديد منها للغة الإنجليزية مثل محلل ستانفورد (من جامعة ستانفورد) 
كال d‏ عابط lua‏ 
ومنها من يدعم اللغة العربية مثل محلل ستانفورد ولكن دقة التحليل لم تصل بعد إلى 
مثيلاتها بالنسبة لتحليل اللغة الإنجليزية. 
فمثلا الجملة التالية (تم إدخاها إلى محلل ستانفورد النحوي؛ وهو محلل مبني على 
النموذج الإحصائي للغة العربية والمدّوّنات النّصَّيّة المكنونة): 
«مظاهرات أمام مكتب شرف للمطالبة بمحاكمة سميرة مبارك وفريدة حسن.» 
وكان ناتج التحليل اللغوي كالتالي (لاحظ تحليل كلمة «أمام» وكلمة «للمطالبة» 
وموقعهم في شجرة التحليل وكذلك بالنسبة لحرف «الواو»): 
الجملة Your query‏ 
مظاهرات أمام مكتب شرف للمطالبة بمحاكمة سميرة مبارك وفريدة حسن. 
الترميز Tagging‏ 
5 / مظاهرات 
/NN‏ أمام 
[NN‏ مكتب 
[NN‏ شرف 
/DTNN‏ للمطالبة 
/VBP‏ بمحاكمة 
سميرة/ NNP‏ 
مبارك/ NNP‏ 


-1١81- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
.55 ييا 


NNP وفريدة/‎ 
NNP / 
PUNC /. 


Parsing التحليل النحوي‎ 
(ROOT 
(S 
(NP (NNS (مظاهرات‎ 
(NP (NN (أمام‎ 
(NP (NN (مكتب‎ 
(NP (NN )شرف‎ 
(NP (DTNN ((((((للمطالبة‎ 
(VP (VBP (بمحاكمة‎ 
(NP 
(NP (NNP (سميرة‎ (NNP ((مبارك‎ 
(NP (NNP (وفريدة‎ (NNP ((((حسن‎ 
(PUNC .)) 


ه- التوجهات المستقبلية والتحديات التى تواجه تنقيب الآراء 
Y‏ - بناء قواعد بيانات متخصصة للكائنات الاسمية (Gazetteers)‏ فمثلاً هناك 
قواعد تشتمل على أساء الأشخاص وأخرى على sl‏ المدن وهكذا. ويتم 
ذلك من خلال برمجيات عديدة تحاول تجميع هذه البيانات. 
-Y‏ بناء محللات إعرابية عالية الجودة؛ فلا تزال هذه المحللات ينقصها الكثير حتى 
تستطيع أن تتعامل مع قضايا الالتباس في الجملة وخصوصا في الجمل الطويلة. 
-Y‏ تحديد ما إذا كان المستند أو الجزء (الجملة أو الفقرة) CIS‏ متعلقا بالفاعل ويعبر 


oU oe 


-YAY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


EE EE‏ تقع نتيجة ثراء اللغة البشرية. 

5 - يمكن أن تعبر كلمة أساسية واحدة عن ثلاثة آراء مختلفة (رأى eall‏ ومتعادل» 
وشالت (Ca Jb‏ معثمدة غل سياق aall‏ 

5- من أجل الوصول إلى موجز محسوس أو استنتاجات واضحة فإن تحليل 
وجهات النظر يجب أن يشمل فهم السياق. 

۷- معظم الأبحاث في تقنيات التنقيب في الآراء تتعامل مع كلمات المحتوى كا 
ذكرنا سابقا ولكن هناك أنواع أخرى من الكلمات ها تأثيرها في تحديد الرأي 
المرتبط بالنص مثل «ومع ذلك» ومثل كلمة D‏ لكن» في النص التالي: 

«هذا الكتاب جيد ولكنه صعب الفهم» 

طبقا لكلمات المحتوى الموجود بالنص فإن الرأي المستخلص هو «حيادي» نظرًا 
لأن عدد الكلمات الإيجابية في النص (كلمة جيد) تساوي عدد الكلمات السلبية 
فيه (كلمة صعب). البعض منا يمكن أن يصنف الرأي في الكتاب بأنه إيجابي 
نظرا OY‏ موقع كلمة «جيد» جاءت قريبة من الكتاب. إن إذا أخذنا في الاعتبار 
كلمة «لكن» الموجودة في النص فالبعض الأخر من المكن أن يعتبر أن يصنف 
الرأي في الكتاب بأنه سلبي» وهكذا. 

-A‏ الأخذ في الاعتبار أخطاء الكتابة والقدرة على تصحيح الأخطاء. 

4- التعامل مع ما يمكن تسميته الجمل ذات العلاقات العميقة المتداخلة مثل: 
«هذا الطالب توفرت له جميع إمكانيات النجاح من ذكاء وسرعة بديبة وقوة ذاكرة 

ومهارة مدرس لكن قدر الله نافذ». 
«أيها الطالب العبقرى! هناك حل أسهل کثرا). 
«ولكن قومي وإن كانوا ذوي عدد ليسوا من الشر ني شيء وإن هانا». 
- صعوبة التوافق البشري على نفس المستند» فهناك ما يقرب من فرصة AY‏ أن 
يتفق اثنان أو أكثر من المحللين البشريين مع بعضهم البعض. 
١‏ وغيرها من التحديدات التي تتطلب الكثير من الأبحاث. 


YATS 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EE‏ ^ 


الدكتور/ oe‏ عبد SAJI‏ علي رشوان 

xn‏ متي dl‏ بقسم الإلكترونيات والاتصالات 
الكهربائية في كليّة اهندسة - جامعة القاهرة. تخرّجَ عام ٠۹۷۷‏ 
وكان الأول على دفعته» وحصل على a»‏ ماجستيرات» ثم 
على b gll‏ من جامعة كوين بكندا؛ أشرف على أكثر من مائة 
رسالة ماجستير ودكتوراه. يدير الشركة ا هندسيّة لتطوير ail RDI ÉSI S‏ 
في مجال تقنيات اللّغة العربيّة. 


الدكتور/ لمعت بالله السّعيد ab‏ 

3l‏ الدراسات E‏ ية المُساعد بجامعة القاهرة» وأستاذ 
السا ااا شارك ا ANH eb‏ 
ومنسق وحدة الموارد Taski‏ بمشروع م مُعجم الدّوحة. 
S LS‏ ثلاثنَ ورقة (eade‏ بالإضافة 0 
في المُعجَويّة S atalay CI‏ المُعاصرة» ee‏ ى اکر من عة 
مشر وعات بحي دولية في ميادين شعاجة اللغات EÍ‏ . حصل على عد من الجوائز 
في يدان aa‏ منها : جائزة (ألكسو (ALECSO‏ للوبداع والابتكار في t Lc‏ 
co di as ZO aL Ua JI,‏ وساف زة راشد بن حميد للعلوم والثقافة. 


الدكتور/ أسامة إمام 

حل هن ie à all dne‏ بكالوزيوس المندسة ddl‏ 
zi‏ والمنظومات عام 1985م وعلى درجة الماجستير عام 
F ce \ ۷‏ على درجة الدكتوراه في ذات Nov‏ عام 
e gs‏ - في الوقت ال حالي - مُديرًا لمركز أبحاث الذكاء 
الأصطناعي بشركة LES. aa — IBM‏ أكثرٌ من ٠١‏ ورقة علمية 
حولٌ حوسبة ة اللّغة Él‏ وتقنياتها SENEC in ade c9» d‏ 
Y Y ja‏ براءة اختراع؛ وحصلٌ على العديد من الجوائز العِلوم 


-1A4- 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
| > لل طغغغ ييا 


الدكتور/ وَلِيد مجدي 

أستاذ مساعد في جامعة إدنبرة ببريطانيا وزميل في معهد 
ألان تيورينج في لندن. يحمل درجة الدكتوراه من جامعة دبلن 
في أيرلندا في علوم الحاسب ودرجتي الماجيستير والبكالوريس 
من كلية ال هندسة جامعة القاهرة؛ وهو aè‏ في Jle‏ الحوسبة 
الاجتماعية واسترجاع المعلومات. له أكثر من ٠١‏ ورقة عِلمِيّة في 
دوريّاتٍ ee‏ ومُؤتمراتٍ دَولِيَةِ مُتَخَصّصة؛ وله تسع براءات اختراع IE LS‏ باسمه في 
أوروبا والولايات المنّجدة الأمريكيّة. عمل في عدو من cede col A gl, cS E‏ 
منها: مايكروسوفت و IBM‏ ومؤسسة قطر. 


الدكتور/ أحمد رافع 

(pam‏ على درجة الدكتوراه من جامعة بول ساباتييه في 
تولوز بمَرَنسا؛ ويَعمل أستادًا لعُلُوم الحاسب بال جامعة الأمريكيّة 
في القاهرة. شارك - باحثا رئيسًا - في العديد من المشروعات 
الذولية ell‏ بتطوير DYI xe JE‏ والتنقيب عن الآراء في 
ات la d 2 E AUI uo AN ele MEL pl‏ 
ال cole‏ 7 مم d Etre erga E‏ أوروها Jo‏ ات s Sas‏ 


une de de الدكتور/‎ 

هو العَمِيدٌ السّابق ZI‏ الخاسبات والخلويات ق جامغة 
القاهرة؛ يعمل - في الوقت o‏ - أستادًا في الذّكاء الاصطناعيٌ 
وتعلم الآلة. عمل خلال الفترة من ۲۰۰۵ إلى AA Y Ve‏ 
التميز في التنقيب في البيانات ونمذجة اللغة DMCM‏ في مصرء 
TT‏ ار قات وتيف انها . 
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هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
:ببسيس بيبا 


مباحث لغوية OV‏ 


المُعاتجة الآلبّةَ للنضوص العربيّة 


يُصدر مركز الملك عبداللّه بن عبدالعزيز الدولي لخدمة اللغة العربية هذا الكتاب ضمن سلسلة 
(مباحث لغوية). وذلك وفق خطة عمل مقسمة إلى مراحل؛ لموضوعات علمية رأى المركز حاجة المكتبة 
اللغوية العربية إليهاء أو إلى بدء النشاط البحثي فيهاء واجتهد 2 استكتاب نخبة من المحررين والمؤلفين 
للنهوض بعنوانات هذه السلسلة على أكمل وجه. 

ويهدف المركز من وراء ذلك إلى تنشيط العمل .2 المجالات التي 4535 إليها هذه السلسلةء سواء أكان 
العمل علميا بحثياء أم عمليا تنفيذياء ويدعو المركز الباحثين كافة من أنحاء العالم إلى المساهمة .2 هذه 
السلسلة. 

333 الأمانة العامة أن تشيد بجهد السادة المؤلفين؛ وجهد مُحَرّرَي الكتاب» على ما تفضلوا به من رؤى 
وأفكار لخدمة العربية # هذا السياق البحثى. 

والشكر والتقدير الوافر لمعالي وزير التعليم المشرف العام على المركز الذي يحث على كل ما من 
شأنه تثبيت الهوية اللغوية coa yall‏ وتمتينهاء وفق رؤية استشرافية محققة لتوجيهات قيادتنا الحكيمة. 

والدعوة موجهة إلى جميع المختصين والمهتمين للتواصل مع المركز؛ لبناء المشروعات العلمية؛ وتكثيف 


الجهود. والتكامل نحو تمكين لغتنا العرييةء وتحقيق وجودها السامى 2 مجالات الحياة. 


الأمين العام للمركز 
أ. د. محمود إسماعيل صالح 
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